Day 04 : 以资料为中心的人工智慧 Data - Centric AI

  • 垃圾进垃圾出「 Garbage in, garbage out 」,不去检视垃圾有多垃圾的情况下,用再好的模型都是垃圾!/images/emoticon/emoticon40.gif
  • Day 03 有提到 AI 数据竞赛用於生产的任务的差别,吴恩达也举办了以资料为中心的 ML 竞赛,改锁定 ML 模型,参赛者以资料工程手段改进资料品质以增进训练成果,与主流 Kaggle 数据竞赛改 Model 调参不同,就是希望能把传统「以模型为中心」的焦点目光转移到更系统化的改进资料品质。今天来谈以数据为中心的人工智慧 Data-Centric AI 的思辨:

图片修改自 Data-centric AI: Real World Approaches

资料为中心与模型为中心的焦点比较

  • 模型为中心的 AI(Model-centric AI)
    • 使用拥有或给定的资料集,使模型的效果越佳越好,传统的作法。
    • 固定资料,持续提升 Algorithm/Model 最佳解。
  • 资料为中心的 AI(Data-centric AI)
    • 资料品质是参数,持续改进资料品质,并且允许复数模型的工作流程,这样的过程是反覆的,而且是有系统的进行。
    • 固定 Code ,持续提升资料品质。

资料为中心的 AI 可以做到的事情

  • 针对特定子资料集/切片进行资料优化。
  • 针对持续蒐集到的新资料进行错误分析及改进资料。
  • 在错误分析与解释 AI 甚至到改进局部预测能力特别有用。

资料为中心的 AI 工作流程持续循环

一些实务的改进资料作法

  • 在吴恩达 Deeplearning.ai 团队在 Data-centric AI: Real World Approaches
    直播中,提及了些有趣可以改善训练成果的 6 个做法,在非结构资料(图片、文字等)、资料量较小的情况下,改进资料品质相当有帮助:
    • 方法1: 将连续性的标签Y呈现一致

      • X->y 如果是呈现随机对应,譬如药丸瑕疵检测、手机刮痕瑕疵检测,以刮痕长短为 x,瑕疵与否为 y ,本来预期刮痕超过一定长度会被判定为瑕疵,但因为是人为标注的结果,而且标注来自不同人、不同判定标准,判断标准不一将影响训练成果。
      • 此时可以将图片透过刮痕长度 x 排序,并「决定」瑕疵 y 的判断基准,经过梳理後会呈现逻辑回归的分布状态,比原来飘忽繁乱的标注改善许多,如下图刮痕 2mm 的判读可以修正。
    • 方法2: 让非连续性的标签一致。

      • 检查同个意义的标签应要一致,像是 "people" 与 "human" 混用,另外对於性别尽量采用中性词汇。
      • 使同个标注标的出现时,如2个以上的刮痕,标注数量一致、边界大小一致。
    • 方法3: 出现的未知标签,定义他并且写入指引。

      • 指引应包含说明、举例、标注范例、让人疑惑地类似状况举例。
    • 方法4: 取舍模糊资料,资料越多不见得越好。

      • 非结构的模糊不清的资料,如果连人类专家都无法明确判断,舍弃该笔资料也会改善训练结果,但如果必须要预测模糊资料,则应设法有判断指引。
    • 方法5: 专注分析并改善有瑕疵的子资料集。

      • 改善有误差的子资料集,可以让整体预测准确率上升。

小结

  • 对於回头检视资料是用於生产的机械学习必须任务,实务上因为资料偏移、概念偏移造成的模型预测准确率下滑,可以设计触法机制做自动化重新训练。
  • 另外,对於资料偏斜的问题,可以细细检视资料及,并且修改标注与预测结果,提供更中性、公平而非偏见的判断与输出。
  • 吴恩达倡议"以资料为中心的 AI ",揭示2021年机械学习更关注部署营运阶段,反思面对资料的必要性。有幸能一同见证逐渐落地的情境,我们下篇见。

参考


<<:  电子书阅读器上的浏览器 [Day04] 以翻页的方式浏览网页

>>:  [Day4]Fibonaccimal Base

变数命名的善意

这是一小段泡沫排序法的程序码,可是在说什麽呢?你可以试着阅读他,但千万不要勉强自己。 int mai...

建立第一个RESTful api server(连结资料库篇)-1 (Day17)

在一个网页後端程序中,主要都是负责资料的处理,关於资料的储存则是会交由专门处理资料库的系统来处理 而...

IT铁人DAY 3-物件导向基本概念(2)

  已经知道了类别与物件的差别以後,接下来就谈谈类别的方法该怎麽使用,以及物件导向的三大特性吧! 基...

安全意识,培训和教育(security awareness, training and education)

所有雇员(All employees) 总体上,“所有员工”是接受或参加意识介绍或活动的理想目标,...

[13th-铁人赛]Day 4:Modern CSS 超详细新手攻略 - Display

昨天提到了Box Model,那要将box放到网页前就必须先了解display这个属性。 Displ...