当前位置: 首页 > 开发杂谈 >

Day 04 : 以资料为中心的人工智慧 Data - Centric AI

  • 垃圾进垃圾出「 Garbage in, garbage out 」,不去检视垃圾有多垃圾的情况下,用再好的模型都是垃圾!/images/emoticon/emoticon40.gif
  • Day 03 有提到 AI 数据竞赛用於生产的任务的差别,吴恩达也举办了以资料为中心的 ML 竞赛,改锁定 ML 模型,参赛者以资料工程手段改进资料品质以增进训练成果,与主流 Kaggle 数据竞赛改 Model 调参不同,就是希望能把传统「以模型为中心」的焦点目光转移到更系统化的改进资料品质。今天来谈以数据为中心的人工智慧 Data-Centric AI 的思辨:

图片修改自 Data-centric AI: Real World Approaches

资料为中心与模型为中心的焦点比较

  • 模型为中心的 AI(Model-centric AI)
    • 使用拥有或给定的资料集,使模型的效果越佳越好,传统的作法。
    • 固定资料,持续提升 Algorithm/Model 最佳解。
  • 资料为中心的 AI(Data-centric AI)
    • 资料品质是参数,持续改进资料品质,并且允许复数模型的工作流程,这样的过程是反覆的,而且是有系统的进行。
    • 固定 Code ,持续提升资料品质。

资料为中心的 AI 可以做到的事情

  • 针对特定子资料集/切片进行资料优化。
  • 针对持续蒐集到的新资料进行错误分析及改进资料。
  • 在错误分析与解释 AI 甚至到改进局部预测能力特别有用。

资料为中心的 AI 工作流程持续循环

一些实务的改进资料作法

  • 在吴恩达 Deeplearning.ai 团队在 Data-centric AI: Real World Approaches
    直播中,提及了些有趣可以改善训练成果的 6 个做法,在非结构资料(图片、文字等)、资料量较小的情况下,改进资料品质相当有帮助:
    • 方法1: 将连续性的标签Y呈现一致

      • X->y 如果是呈现随机对应,譬如药丸瑕疵检测、手机刮痕瑕疵检测,以刮痕长短为 x,瑕疵与否为 y ,本来预期刮痕超过一定长度会被判定为瑕疵,但因为是人为标注的结果,而且标注来自不同人、不同判定标准,判断标准不一将影响训练成果。
      • 此时可以将图片透过刮痕长度 x 排序,并「决定」瑕疵 y 的判断基准,经过梳理後会呈现逻辑回归的分布状态,比原来飘忽繁乱的标注改善许多,如下图刮痕 2mm 的判读可以修正。
    • 方法2: 让非连续性的标签一致。

      • 检查同个意义的标签应要一致,像是 "people" 与 "human" 混用,另外对於性别尽量采用中性词汇。
      • 使同个标注标的出现时,如2个以上的刮痕,标注数量一致、边界大小一致。
    • 方法3: 出现的未知标签,定义他并且写入指引。

      • 指引应包含说明、举例、标注范例、让人疑惑地类似状况举例。
    • 方法4: 取舍模糊资料,资料越多不见得越好。

      • 非结构的模糊不清的资料,如果连人类专家都无法明确判断,舍弃该笔资料也会改善训练结果,但如果必须要预测模糊资料,则应设法有判断指引。
    • 方法5: 专注分析并改善有瑕疵的子资料集。

      • 改善有误差的子资料集,可以让整体预测准确率上升。

小结

  • 对於回头检视资料是用於生产的机械学习必须任务,实务上因为资料偏移、概念偏移造成的模型预测准确率下滑,可以设计触法机制做自动化重新训练。
  • 另外,对於资料偏斜的问题,可以细细检视资料及,并且修改标注与预测结果,提供更中性、公平而非偏见的判断与输出。
  • 吴恩达倡议"以资料为中心的 AI ",揭示2021年机械学习更关注部署营运阶段,反思面对资料的必要性。有幸能一同见证逐渐落地的情境,我们下篇见。

参考


相关文章:

  • Vue3 使用 Bs5 、 Jq 、 gsap
  • 两种开发模式 (MVC, MVVM) 比较
  • Day28 go-elasticsearch(二)
  • iOS APP iOS Test-Driven Development by Tutorials free section 学习笔记-the TDD Cycle
  • Vue slot:编译作用域、後备内容
  • Backtrader - sizer
  • DAY26 Aidea专案实作-AOI瑕疵检测(1/4)
  • 外贸卖家常见的三种价格术语
  • [DAY 02] Google Apps Script
  • 独立站的发货模式和物流选择技巧
  • 亚马逊电商运营怎么做?分享七大原则!
  • DAY10 - websocket前端实作-以vue.js为例
  • Day8 - pandas(3)DataFrame索引与loc、iloc
  • Day 19 [Python ML、资料视觉化] Seaborn介绍
  • Jumia产品定价逻辑
  • MovoCash虚拟信用卡教程:美国虚拟信用卡申请教程
  • WordPress SEO插件-Yoast V13.3 汉化中文版高级版
  • WordPress 5.7.1 修复2个安全问题,请及时更新
  • Gutenberg 10.5 支持嵌入PDF,新增块模式,增强自定义器的小工具功能
  • 怎么获得菲律宾手机卡和接受短信验证码
  • Vultr促销码和2020年最新优惠:Vultr注册教程和使用方法
  • 软件分享:xshell6/xftp6个人版下载,无需破解,永久免费使用
  • 国外靠谱的VPS云服务器大全
  • Python安装教程:怎么安装Python
  • 阿里云国际版怎么注册绑卡购买香港美国新加坡云主机【2020年最新教程】
  • 外贸电商网络营销之心理营销如何做?让客户更信任你的产品和网站
  • 智能路由器刷华硕老毛子Padavan固件,实现巨多功能,你懂的!
  • Jungle Scout选品工具中文版好用吗?亚马逊选品为什么要用JungleScout
  • Google Play Store报错DF-DFERH-01怎么办
  • 亚马逊选品工具哪个好用:亚马逊卖家选品数据分析工具推荐