- 垃圾进垃圾出「 Garbage in, garbage out 」,不去检视垃圾有多垃圾的情况下,用再好的模型都是垃圾!
-
Day 03 有提到 AI 数据竞赛用於生产的任务的差别,吴恩达也举办了以资料为中心的 ML 竞赛,改锁定 ML 模型,参赛者以资料工程手段改进资料品质以增进训练成果,与主流 Kaggle 数据竞赛改 Model 调参不同,就是希望能把传统「以模型为中心」的焦点目光转移到更系统化的改进资料品质。今天来谈以数据为中心的人工智慧 Data-Centric AI 的思辨:
图片修改自 Data-centric AI: Real World Approaches
资料为中心与模型为中心的焦点比较
- 模型为中心的 AI(Model-centric AI)
- 使用拥有或给定的资料集,使模型的效果越佳越好,传统的作法。
- 固定资料,持续提升 Algorithm/Model 最佳解。
- 资料为中心的 AI(Data-centric AI)
- 资料品质是参数,持续改进资料品质,并且允许复数模型的工作流程,这样的过程是反覆的,而且是有系统的进行。
- 固定 Code ,持续提升资料品质。
资料为中心的 AI 可以做到的事情
- 针对特定子资料集/切片进行资料优化。
- 针对持续蒐集到的新资料进行错误分析及改进资料。
- 在错误分析与解释 AI 甚至到改进局部预测能力特别有用。
资料为中心的 AI 工作流程持续循环
一些实务的改进资料作法
- 在吴恩达 Deeplearning.ai 团队在 Data-centric AI: Real World Approaches
直播中,提及了些有趣可以改善训练成果的 6 个做法,在非结构资料(图片、文字等)、资料量较小的情况下,改进资料品质相当有帮助:
-
方法1: 将连续性的标签Y呈现一致
-
X->y
如果是呈现随机对应,譬如药丸瑕疵检测、手机刮痕瑕疵检测,以刮痕长短为 x,瑕疵与否为 y ,本来预期刮痕超过一定长度会被判定为瑕疵,但因为是人为标注的结果,而且标注来自不同人、不同判定标准,判断标准不一将影响训练成果。
- 此时可以将图片透过刮痕长度 x 排序,并「决定」瑕疵 y 的判断基准,经过梳理後会呈现逻辑回归的分布状态,比原来飘忽繁乱的标注改善许多,如下图刮痕 2mm 的判读可以修正。
-
-
方法2: 让非连续性的标签一致。
- 检查同个意义的标签应要一致,像是 "people" 与 "human" 混用,另外对於性别尽量采用中性词汇。
- 使同个标注标的出现时,如2个以上的刮痕,标注数量一致、边界大小一致。
-
方法3: 出现的未知标签,定义他并且写入指引。
- 指引应包含说明、举例、标注范例、让人疑惑地类似状况举例。
-
方法4: 取舍模糊资料,资料越多不见得越好。
- 非结构的模糊不清的资料,如果连人类专家都无法明确判断,舍弃该笔资料也会改善训练结果,但如果必须要预测模糊资料,则应设法有判断指引。
-
方法5: 专注分析并改善有瑕疵的子资料集。
小结
- 对於回头检视资料是用於生产的机械学习必须任务,实务上因为资料偏移、概念偏移造成的模型预测准确率下滑,可以设计触法机制做自动化重新训练。
- 另外,对於资料偏斜的问题,可以细细检视资料及,并且修改标注与预测结果,提供更中性、公平而非偏见的判断与输出。
- 吴恩达倡议"以资料为中心的 AI ",揭示2021年机械学习更关注部署营运阶段,反思面对资料的必要性。有幸能一同见证逐渐落地的情境,我们下篇见。
参考