Day 05 : ML 专案生命周期

  • 从无到有开发 ML 专案到布署需要 6 至 12 个月不等,在尚未有具体产出的过程中,会有对内部及外部说明进展的机会,能有架构、系统的与合作对象说明是很重要的。吴恩达在 2021 年 4 月在 吴恩达在 2021 年 4 月在 DeepLearning.AI 发布的电子报归纳了出 4 大阶段,用以描述 ML 专案生命周期,也是後续开发新课程架构的主要轮廓。

  • 随後, 2021 下半年在 Coursera 推出上述 Machine Learning Engineering for Production
    (MLOps) Specialization
    (MLEP) 系列课程计 4 门,架构如下:

  • 您可以看出在较新的ML产品生命周期图示,整合为四大阶段并归纳 7 个主题,用以描述用於生产的机械学习工作流程,这样的工作流程实际上并非是转圈圈的循环图,而是有向无环图(Directed Acyclic Graph (DAG)),箭头表示了工作流程及相依性。

架构摘述

  • 简述4个阶段与7大主题,之後文章会以此架构再进一步说明:

    • 范畴Scoping
      • 定义专案: ML专案的商业考量目标。
    • 资料Data
      • 定义资料与建立基准。
      • 标注与组织资料。
    • 建立模型Modeling
      • 选择与训练模型。
      • 错误分析。
    • 布署Deployment
      • 在生产情境中部署。
      • 监控与维运系统。
  • 上图点出用於产品的ML专案需要注意的事情,举例如:

    • 标注数据:
      • 您很难一次性的取得乾净的资料,可以先标注数据後,透过建立指引检查并改具数据,(本系列文後续会说明作法)。
    • 训练模型:
      • 建构AI系统的输入是要决定使用哪些「数据」、「超参数」和「模型架构」。与其过度考虑这些选择,不如训练初始模型,然後透过错误分析推动改进。
    • 部署和监控:
      • 在部署ML系统时,您需要设计符合需求的监控指标与仪表板,以尝试发现概念漂移或资料漂移。

Azure 的 ML 专案工作流程

  • 通常会在具有目标和目标的专案中开发模型。 专案通常牵涉到一个以上的人。 使用资料、演算法和模型进行实验时,会反复开发。

  • Azure Machine Learning Pipeline 可以包含 ML 生命周期的相关工作,依该文件说明包含如下,并且有设计工具协助:

    • 资料准备,包括汇入、验证和清除、改写和转换、正规化以及暂存。
    • 训练组态,包括参数化引数、档案路径,以及记录/报告组态。
    • 有效且重复地训练和验证。 效率可能来自指定特定的资料子集、不同的硬体计算资源、分散式处理和进度监视。
    • 部署,包括版本控制、调整、布建和存取控制。

小结

  • 您在搜寻网路上诸多传统的 ML pipeline 流程图,会发现工作流程步骤相当复杂且一致,这也是资料科学、资料工程、机械工程、布署维运彼此之间的专业价值。
  • 本系列文引用的 ML 专案生命周期相当清晰,也可以更能聚焦在「资料为中心」的任务流程与工作价值,希望对您有帮助。

参考


<<:  [Day4]C# 鸡础观念- 核心的数据成员~变数(二)

>>:  [Day3] Vite 出小蜜蜂~ Game Loop!

Real Microsoft DA-100 Dumps - Pass DA-100 Exam With Ease

Actual Microsoft DA-100 Dumps – Quickest Way to Ge...

[Day11] Face Detection - 使用OpenCV & Dlib:Dlib HOG + Linear SVM

不要被标题一堆名词吓到;当你用过它後,你会惊讶它的易用以及,最重要的,无缝接轨辨识人脸关键点 本文...

9/29(三) 制造业资安趋势:永续营业风险大解密线上研讨会

制造业是台湾经济的生力军,疫情延烧并未影响营运,资安事件反而成为不定时炸弹,造成企业商誉甚或营收受损...

Day 0x 1D - odoo addons 永丰金流开发(Part 4 - Website template, data... more)

*** 模组资料夹 payment_sinopac 以 "/" 来代表此资料夹 ...

DAY7 Ngrok运行原理&安装Ngrok

Ngrok运行原理 其实ngrok有客户端ngrok和服务端ngrokd,在用户客户端发起请求时,就...