Being human means having doubts and yet still continuing on your path. — Paulo Coelho
在 [Day 11] 建立 Baseline — 开启机器学习专案的第一步 的时候,我们学到了对使用非结构化资料的任务来说,HLP 是很好的 Baseline,而其主要用途为估计 Bayes/Irreducible error 以帮助执行错误分析与安排优先顺序。
但那时候没有说的是这只限定於 Ground Truth Label 的定义是客观的时候 (例如实验结果)。
如果作为衡量 HLP 基准的 Ground Truth Label 为另一个人所定义的,此时得到的 HLP 其实只是在比较两个人的共识程度而已:
为了补足之前挖的坑,今天我们就来彻底解析 HLP 吧!
除了作为 Baseline 以外,HLP 的其他用途如下:
因为 Ground Truth Label 其实很常只是另一个标注者的意见,所以当目标是建立实际有用的系统时,比起打败 HLP,提昇 HLP 会更有帮助,而藉由增加标注一致性,除了能提升 HLP 以外,最终也能增加模型表现,例如下图为标注产品是否有刮痕的案例,可以看到使用刮痕长度来清楚定义标注指南,即可将 HLP 提升至 100%:
总的来说,HLP 在很多应用都很重要,它可以作为很有用的指标,但要注意以下几点:
虽然上面的讨论都着重在非结构化资料,但在需要由人类进行标注的情况中,结构化资料也会遇到一样的问题,这些例外情况如下:
说了这麽多,结论就是正确且良好的标注资料对於模型表现是至关重要的,明天我们就来谈谈资料的标注吧,虽然很想这麽说,但我们要先谈的是关於收集资料的眉眉角角,那就明天见啦!
>>: [Day 18] 阿嬷都看得懂的 CodePen 怎麽用
Web 应用程序选单多样化,早期最常见的多半树状选单,直至手机问世後汉堡选单(hamburger m...
全球个资保护如雨後春笋般的出现,各国对於个资保护的意识更加积极主动,且也陆续参考GDPR进行个资隐私...
图片来源 继续延续前几篇的话题, 好巧不巧本月(2021年10月)刚出刊的专案经理杂志的封面故事,...
wiki 说明页:回归分析 想了解详细的说明,请见wiki或者其他参考资料。 或者也可以直接看下面,...
各位在刚载好VScode都会做甚麽样的设定或安装甚麽扩充功能呢? 虽然网路上一大堆的介绍,但零零总总...