[Day 17] 定义资料 — 讲清楚很难吗?

Everybody has a different definition of the good side. — Will Wright

前言

美剧《菜鸟新移民》中有一段 洁西卡 (Jessica Huang) 向伊莲李 (Elaine Lee) 询问了教养建议,她回答重点在於让孩子混淆,用标准不一让孩子更努力,这当然是喜剧效果,不会有人真的这麽做 (对吧?),特别在教导模型时更不能这麽做,它会很容易学坏的!
所以我们今天就来谈谈如何定义资料吧。
MEME

定义资料的重要性

定义资料的挑战在於,只要有一点点模糊空间,就可能造成资料不一致,使得模型错乱。
以下图为例,三个标注者接到同一个指令却产生三种不同的标注风格:

  • 标注者一号觉得不能把框重叠
  • 标注者二号觉得应该要标好,所以自行猜测了小孩肩膀的位置
  • 标注者三号觉得人就是人,哪有分那麽多,反正有标就好 (懒惰鬼)

虽然这些标法都不算错,各自拿来训练的话效果也不差,但如果训练集混搭了这些风格,模型便会错乱,导致表现不佳。
example
而造成标注风格不同的原因就在於指令不够明确。
就连结构化资料也会有标注不明确的问题,以使用者 ID 合并为例,大家觉得下面两个帐号是同一个人吗:
ID merge

在这类任务中,一般会利用监督式演算法判定两笔资料是否属於同一个人,而训练这个演算法的资料,除非使用者设定了帐户连结,不然实际上真的会请人来标注,但它们是否属於同一个人本身的 Ground Truth 就很不确定,所以不同标注者的判断就可能产生分歧。

定义资料

因此在定义资料时,必须厘清以下几个重要的问题:

  • Input X 是什麽?

    • 以瑕疵检测为例 (非结构化资料),合格照片该有的亮度、对比、解析度是什麽?
      影像品质够好才不会造成标注者额外的困扰。
    • 以 ID 合并为例 (结构化资料),该包含哪些特徵?
      更有辨识性的特徵 (例如身份证字号) 才能帮助标注者判断。
  • Target label Y 是什麽?

    • 如何确保标注者给出一致的 label?

可以看到上面重复出现的概念就是 label 的一致性,特别对资料较少的情况来说,label 的正确性与一致性真的非常非常重要,如果 label 很好,就算只有五笔资料也能拟合出正确的曲线:
important of label consistency
*图片来源:MLEP, Small data and label consistency

数据越少越得注意拆分训练、验证、测试集时的取样方法,最好使用 Stratified sampling,才能使每个资料集具有代表性。

增加 label 一致性

我们可以使用以下步骤来提升 label 的一致性:

  1. 让不同人标注同一个样本 (或让同一个人休息一阵子再重新标) 看看是否一致。
  2. 如果出现意见分歧,请机器学习工程师 (MLE)、领域专家 (Subject Matter Expert, SME) 以及/或标注者讨论对 y 的一致定义。
  3. 如果在讨论中标注者觉得 x 没有包含足够的资讯,考虑换掉 x。
  4. 重复以上三个步骤直到很难再提昇共识。

以上的流程可能会把不同的风格统一或把界线模糊的类别合并,而其终极目标在於建立清楚的标注指南作为後续一致的标准,因此如果很难达到共识,甚至可以创造一个 class/label 来捕捉不确定的部份,例如语音辨识的 [unintelligible],如此一来也能增加标注的一致性。

有些团队为了增加准确度,可能会让所有人同时标注所有资料再从中投票以决定最终的标签 (consensus),但这是最後手段,清楚的标注指南才是王道。

以上就是今天的内容,明天我们会再重新检视一次 Human-level Performance (HLP) 作为 baseline 在资料上的功用为何,那麽就明天见啦~
/images/emoticon/emoticon39.gif

参考资料


<<:  Day18:今天我们来谈一下如何使用ShellPhish工具进行社交工程演练

>>:  30-17 之 DataSource Layer - Active Record

【零基础成为 AI 解梦大师秘笈】Day30 - Django 整合部署 AI model

AI 解梦最终秘笈 前言 系列文章简介 大家好,我们是 AI . FREE Team - 人工智慧自...

Day 26 广播自己的BGP

继上篇,我们拿到了一个AS Number及IPv6。我们接着就要开始去广播我们的网路啦!!! 首先,...

Angular Stock登入(四)(Day25)

透过昨天我们提到的路由,今天我们要实现登入後将token存入sessionStorage後转导到首页...

Day30 换脸效果 ( 你全家都同一张脸 )

换脸效果 ( 你全家都同一张脸 ) 教学原文参考:换脸效果 ( 同一张脸 ) 这篇文章会介绍使用 G...

[day17]使用者名称表格

一样先从建立表格开始,这张表格除了储存来自Line的使用者资讯,也预留了未来资料的输入栏位 栏位 说...