[Day 17] 定义资料 — 讲清楚很难吗?

Everybody has a different definition of the good side. — Will Wright

前言

美剧《菜鸟新移民》中有一段洁西卡 (Jessica Huang) 向伊莲李 (Elaine Lee) 询问了教养建议，她回答重点在於让孩子混淆，用标准不一让孩子更努力，这当然是喜剧效果，不会有人真的这麽做 (对吧?)，特别在教导模型时更不能这麽做，它会很容易学坏的!
所以我们今天就来谈谈如何定义资料吧。
MEME

定义资料的重要性

定义资料的挑战在於，只要有一点点模糊空间，就可能造成资料不一致，使得模型错乱。
以下图为例，三个标注者接到同一个指令却产生三种不同的标注风格：

标注者一号觉得不能把框重叠
标注者二号觉得应该要标好，所以自行猜测了小孩肩膀的位置
标注者三号觉得人就是人，哪有分那麽多，反正有标就好 (懒惰鬼)

虽然这些标法都不算错，各自拿来训练的话效果也不差，但如果训练集混搭了这些风格，模型便会错乱，导致表现不佳。
example
而造成标注风格不同的原因就在於指令不够明确。
就连结构化资料也会有标注不明确的问题，以使用者 ID 合并为例，大家觉得下面两个帐号是同一个人吗：
ID merge

在这类任务中，一般会利用监督式演算法判定两笔资料是否属於同一个人，而训练这个演算法的资料，除非使用者设定了帐户连结，不然实际上真的会请人来标注，但它们是否属於同一个人本身的 Ground Truth 就很不确定，所以不同标注者的判断就可能产生分歧。

定义资料

因此在定义资料时，必须厘清以下几个重要的问题：

Input X 是什麽？
- 以瑕疵检测为例 (非结构化资料)，合格照片该有的亮度、对比、解析度是什麽？
  影像品质够好才不会造成标注者额外的困扰。
- 以 ID 合并为例 (结构化资料)，该包含哪些特徵？
  更有辨识性的特徵 (例如身份证字号) 才能帮助标注者判断。
Target label Y 是什麽？
- 如何确保标注者给出一致的 label？

可以看到上面重复出现的概念就是 label 的一致性，特别对资料较少的情况来说，label 的正确性与一致性真的非常非常重要，如果 label 很好，就算只有五笔资料也能拟合出正确的曲线：
important of label consistency
*图片来源：MLEP, Small data and label consistency

数据越少越得注意拆分训练、验证、测试集时的取样方法，最好使用 Stratified sampling，才能使每个资料集具有代表性。

增加 label 一致性

我们可以使用以下步骤来提升 label 的一致性：

让不同人标注同一个样本 (或让同一个人休息一阵子再重新标) 看看是否一致。
如果出现意见分歧，请机器学习工程师 (MLE)、领域专家 (Subject Matter Expert, SME) 以及/或标注者讨论对 y 的一致定义。
如果在讨论中标注者觉得 x 没有包含足够的资讯，考虑换掉 x。
重复以上三个步骤直到很难再提昇共识。

以上的流程可能会把不同的风格统一或把界线模糊的类别合并，而其终极目标在於建立清楚的标注指南作为後续一致的标准，因此如果很难达到共识，甚至可以创造一个 class/label 来捕捉不确定的部份，例如语音辨识的 [unintelligible]，如此一来也能增加标注的一致性。

有些团队为了增加准确度，可能会让所有人同时标注所有资料再从中投票以决定最终的标签 (consensus)，但这是最後手段，清楚的标注指南才是王道。

以上就是今天的内容，明天我们会再重新检视一次 Human-level Performance (HLP) 作为 baseline 在资料上的功用为何，那麽就明天见啦~

参考资料

<<: Day18:今天我们来谈一下如何使用ShellPhish工具进行社交工程演练

>>: 30-17 之 DataSource Layer - Active Record

[Day 17] 定义资料 — 讲清楚很难吗?

前言

定义资料的重要性

定义资料

增加 label 一致性

参考资料

30天轻松学会unity自制游戏-前言

[Day6] Vector 使用以及回圈更深应用

【Day 10】- 你的爬虫是哪一类的? (网路爬虫的类型)

【从零开始的 C 语言笔记】第二十四篇－程序设计的流程图制作

[番外] 来个音乐拨放器 Play! (序)

【零基础成为 AI 解梦大师秘笈】Day30 - Django 整合部署 AI model

Day 26 广播自己的BGP

Angular Stock登入(四)(Day25)

Day30 换脸效果 ( 你全家都同一张脸 )

[day17]使用者名称表格