[Day 20] 资料标注 (1/2) — Forget about the price tag ♫

The only thing that never changes is that everything changes. ― Louis L'Amour

前言

因为世界不断在变化,所以必须很熟悉模型对各种变化的敏感程度,才能在问题发生时快速应对。
换句话说,因为 Data/Concept drift 的关系,模型表现会逐渐下降,当发现 Ground truth 改变时,就得重新标注资料。
今天我们就先大略介绍一下与标注相关的基本知识,明天再来谈谈各种标注方法。

标注的成本

如果在收集或扩充资料时需要进行标注,此时存在三种选项:

  • 自己来 (In-house) — 请机器学习工程师 (MLEs) 标注的成本最高,但如果为了让专案快点开始,只是做几天倒还是可以的,这麽做还能帮助 MLEs 更了解资料。
  • 外包 (Outsourced) — 请专门标注的公司帮忙。
  • 众包 (Crowdsourced) — 与外包的差别在於对某类型资料的专业度,如果标注需要专业判断,找相对应的公司外包会比众包更好。

另外根据专案性质还需考虑谁有资格作为标注者,才能确保标签的品质,例如:

  • 语音辨识:任何能流畅使用该语言的人都可以。
  • 产线检测、医疗影像分析:领域专家 (SME)。
  • 推荐系统:或许不可能标得好,毕竟喜好因人而异。

除了标注的成本以外,我们还得设想以下现实面的问题,才能帮助我们更有效率的扩充资料:

  • 错误的预测在商业上的影响不一
    例如自驾车突然煞车可能後果不堪设想,但红灯停久一点倒是还好,因此在设计监控时要特别着重影响较大的错误。
  • 资料通常不会是你想要的
    碍於现实,有时候就只能收集到这些资料,只能想办法处理它。
  • 模型的目标通常只是商业目标的代理
    只能在两者之间妥协出双方都能接受的目标。
  • 有些客户体验会很糟
    只能尽可能降低体验很糟的客户数量,了解他们是哪些人并试着改善他们的体验。

不要一次把资料量增加超过 10 倍以上,因为改变太大会使得情况难以预测。

标注的难度

依照 Ground truth 改变的速度,会让不同任务的标注有各种难易度:
labeling difficulty

而不同的难易度则有不同的方法,这部分就让我们明天见罗!
/images/emoticon/emoticon29.gif

参考资料


<<:  【Day20】SPI的实现

>>:  Backtrader - 策略收益

<Day28> Shioaji API 证券户登入 & 汇入凭证

● 这章会示范如何透过自己的证券户做登入以及汇入凭证 登入(Login) 之前几章我们所使用 Shi...

找资安工作,怎麽找?要学甚麽?该何去何从?

今天刚好进入铁人赛的一半了, 累,真滴累。虽然单纯看文章,是看不出甚麽端倪, 内容都不是很多,可是都...

Day 02 注册 Azure 帐号与套件安装- 免费体验30天

注册 Azure 帐号与套件安装- 免费体验30天 基本起手式,能注册的先注册,能安装的先安装。 注...

Angular 如何取得 API 资料

既然昨天已经说了 http post 这件事,那今天就来说说 http get 这部份吧! 今天的资...

Day8 - 程序设计报价 (三) - 常见问题

上一篇文章中介绍的报价方法,在我这一年多来的实验结果,碰过很多无法接受或是仍旧希望要有报价单、合约书...