Everybody has a different definition of the good side. — Will Wright
美剧《菜鸟新移民》中有一段 洁西卡 (Jessica Huang) 向伊莲李 (Elaine Lee) 询问了教养建议,她回答重点在於让孩子混淆,用标准不一让孩子更努力,这当然是喜剧效果,不会有人真的这麽做 (对吧?),特别在教导模型时更不能这麽做,它会很容易学坏的!
所以我们今天就来谈谈如何定义资料吧。
定义资料的挑战在於,只要有一点点模糊空间,就可能造成资料不一致,使得模型错乱。
以下图为例,三个标注者接到同一个指令却产生三种不同的标注风格:
虽然这些标法都不算错,各自拿来训练的话效果也不差,但如果训练集混搭了这些风格,模型便会错乱,导致表现不佳。
而造成标注风格不同的原因就在於指令不够明确。
就连结构化资料也会有标注不明确的问题,以使用者 ID 合并为例,大家觉得下面两个帐号是同一个人吗:
在这类任务中,一般会利用监督式演算法判定两笔资料是否属於同一个人,而训练这个演算法的资料,除非使用者设定了帐户连结,不然实际上真的会请人来标注,但它们是否属於同一个人本身的 Ground Truth 就很不确定,所以不同标注者的判断就可能产生分歧。
因此在定义资料时,必须厘清以下几个重要的问题:
Input X 是什麽?
Target label Y 是什麽?
可以看到上面重复出现的概念就是 label 的一致性,特别对资料较少的情况来说,label 的正确性与一致性真的非常非常重要,如果 label 很好,就算只有五笔资料也能拟合出正确的曲线:
*图片来源:MLEP, Small data and label consistency
数据越少越得注意拆分训练、验证、测试集时的取样方法,最好使用 Stratified sampling,才能使每个资料集具有代表性。
我们可以使用以下步骤来提升 label 的一致性:
以上的流程可能会把不同的风格统一或把界线模糊的类别合并,而其终极目标在於建立清楚的标注指南作为後续一致的标准,因此如果很难达到共识,甚至可以创造一个 class/label 来捕捉不确定的部份,例如语音辨识的 [unintelligible],如此一来也能增加标注的一致性。
有些团队为了增加准确度,可能会让所有人同时标注所有资料再从中投票以决定最终的标签 (consensus),但这是最後手段,清楚的标注指南才是王道。
以上就是今天的内容,明天我们会再重新检视一次 Human-level Performance (HLP) 作为 baseline 在资料上的功用为何,那麽就明天见啦~
<<: Day18:今天我们来谈一下如何使用ShellPhish工具进行社交工程演练
>>: 30-17 之 DataSource Layer - Active Record
AI 解梦最终秘笈 前言 系列文章简介 大家好,我们是 AI . FREE Team - 人工智慧自...
继上篇,我们拿到了一个AS Number及IPv6。我们接着就要开始去广播我们的网路啦!!! 首先,...
透过昨天我们提到的路由,今天我们要实现登入後将token存入sessionStorage後转导到首页...
换脸效果 ( 你全家都同一张脸 ) 教学原文参考:换脸效果 ( 同一张脸 ) 这篇文章会介绍使用 G...
一样先从建立表格开始,这张表格除了储存来自Line的使用者资讯,也预留了未来资料的输入栏位 栏位 说...