- 在 Day 05 ML 专案生命周期介绍分为 4 个阶段与 7 大主题,第 1 个阶段为「定义范畴 Scoping」,相较其他 3 个阶段,Scoping 较偏管理知识面的讨论,有专案发想经验的您应该不陌生,我们会试着把商业命题转换为 AI 命题。
以下延续吴恩达 Machine Learning Engineering for Production
(MLOps) Specialization 系列课程所提的 ML 专案生命周期架构进行说明。
定义商业命题
- 一个明确的商业命题可以引领专案往好的方向发展。对参与其中的您而言,专案方案理解越清晰,团队运行及专案发展也越容易成功。
- 在命题的过程中,要思考的包含:
- 专案的目的是什麽?
- 要如何衡量绩效?
- 需要哪些资源?
专案的目标是什麽? 透过脑力激荡吧!
- 设想目标有时很单纯(老板说要做),也有采取一种比较开放的方式,透过「对商业问题脑力激荡」可能有较佳的设想,毕竟 ML 专案需要企业资源投入,在起步阶段,也面临较多的不确定性。
- 简单的想法是罗列出面临的「问题」,激荡对应的「解决方案」,排列问题的重要性以及时效性。
- 同时,再进一步聚焦这个问题一定要 AI 解决吗? 如何解决? 「对 AI 解决提案的脑力激荡」,不是所有命题都需要藉由 AI 完成的,开放且审慎的评估适切的目标达成做法,总比头洗下去却方向错误的好。
- 设定专案目标脑力激荡的过程中,也同时「评估可行性与潜在价值」,好的开始是成功的一半,毋须躁进。
- 举例一些对於 AI 相关的命题,例如:
- 改进建议系统。
- 改进搜寻结果。
- 改进分类系统。
- 产品定价优化...
要如何衡量绩效、定义里程碑与资源?
- 一旦作为 ML 专案,绩效衡量可以用不同的指标综合评判(顺便做个仪表板?)
- 基於模型的准确率、loss、RMSE、F1等。
- 系统效能的延迟、计算时间、耗能等。
- 商业成果,如投报率等。
- 衡量绩效的标准,可以参考:
- 既有服务展现的水准。
- 开源专案展现的水准。
- 基於「人类表现的水准」。非结构性资料(图片、声音、文字)可以用人类表现水准 HLP (Human-level Performance) 来设定目标。 HLP 一词来自吴恩达 deeplearning.ai 提出,在其电子报中讨论基於 HLP 而非追求更高绩效的想法。
- 有限的时间基准。
- 在较不明确的状况下,可以透过标竿学习、概念验证 POC 掌握专案轮廓。
- 需要哪些资源?
- 启动专案的资源规划,如所需人力、时间、成本、设备等。
AI模型的绩效一定要超过人类水准?
- 在衡量模型绩效时可能会落入一个迷思,就是AI模型的绩效一定要超过人类水准,但如果分为结构性资料、非结构性资料(图片、声音、文字)衡量绩效,确实结构性资料的绩效可能大於 HLP ,但非结构资料如果连人类都无法判读,又如何检视您的 ML 模型表现是否真的如此优异?
- 举例来说瑕疵检测、语音辨识,在遇到逼近或略为大於 HLP ,您可以将目光移至有关安全性、偏见、稀有类别的性能。
\ |
非结构资料 |
结构资料 |
新服务 |
HLP |
Benchmark |
既有服务 |
过往服务水准、HLP |
过往服务水准、Benchmark |
确认没有道德疑虑
- 企业服务是需要负社会责任的,在进行 ML 专案开头时,应该确认专案有无道德疑虑,是否有潜在的偏见风险。您不会希望辛苦做出来的人脸辨识,却发生像脸书AI将黑人影片误标为灵长类的状况。
小结
- 本日简要介绍在定义范畴阶段可以的流程及注意的事情,可以透过脑力激荡探询欲定义问题到构思解决方案,进一步厘清是否要发起 AI 专案,衡量绩效的方式与绩效基准,以及需要的资源。
- 人类的表现 HLP 在声音、影片、文字的辨识能力是很强大的,让您的 ML 能达到 HLP 就有替代人力的机会,或许您可以转移注意力到预测伴随的安全与道德问题。
参考