[Day 18] 再访 HLP — 人(?)的表现是己欲立而立人

Being human means having doubts and yet still continuing on your path. — Paulo Coelho

前言

[Day 11] 建立 Baseline — 开启机器学习专案的第一步 的时候,我们学到了对使用非结构化资料的任务来说,HLP 是很好的 Baseline,而其主要用途为估计 Bayes/Irreducible error 以帮助执行错误分析与安排优先顺序。
但那时候没有说的是这只限定於 Ground Truth Label 的定义是客观的时候 (例如实验结果)。
如果作为衡量 HLP 基准的 Ground Truth Label 为另一个人所定义的,此时得到的 HLP 其实只是在比较两个人的共识程度而已:
HLP

为了补足之前挖的坑,今天我们就来彻底解析 HLP 吧!

HLP 的用途 The good and the bad

除了作为 Baseline 以外,HLP 的其他用途如下:

  • 在学术界,HLP 可以作为一个可敬的标竿,通打败它通常都是很重大的突破,因此可以帮助论文发表。
  • 在产业界,老板可能会一开始就要求 99% 准确率,HLP 可以帮助建立更合理的目标。
  • (不好的用途) "证明" ML 系统超越人类在某任务的能力以说服客户买单。
    为什麽在一开始就说这是不好的用途呢,因为这可以作弊!
    在标注指南不够清楚时,这类指标会给演算法不公平的优势,举例来说,假设有 70% 标注者使用一种风格、30% 使用另一种,两种都很 OK,但在统计上就有了差距 (随机挑选样本时,不同风格被选取的机率不同)。
    如果 Ground Truth 仅仅是由职位比较高的标注者建立,此时衡量 HLP 得到的就是两个标注者意见一致的机率,而这个机率其实只有 58% (0.7^2+0.3^2=0.58),而这就是演算法占优的地方。
    因为演算法擅长捕捉统计资讯,它可能会发现某一种风格出现频率较高,因此只使用该风格作为预测 (因为它知道这麽做有 70% 机率是对的)。
    也就是说,只是单纯选用一种风格就具有超越 HLP 12% 的表现,但这样真的有实质超越人类吗?
    更糟的是,在评估表现时,就算演算法在其他类别的样本出了大错,也会被这类无关紧要的好表现平均掉,使得演算法可以看起来表现得比 HLP 好,但实际上却输出更差的预测,而我们却无从察觉。
    就像平均测试准确度很高但不符合产品标准一样,这种逻辑在实务上很少真的有用。

让 HLP 再次伟大

因为 Ground Truth Label 其实很常只是另一个标注者的意见,所以当目标是建立实际有用的系统时,比起打败 HLP,提昇 HLP 会更有帮助,而藉由增加标注一致性,除了能提升 HLP 以外,最终也能增加模型表现,例如下图为标注产品是否有刮痕的案例,可以看到使用刮痕长度来清楚定义标注指南,即可将 HLP 提升至 100%:
clear definition

总的来说,HLP 在很多应用都很重要,它可以作为很有用的指标,但要注意以下几点:

  • 当标签 Y 的来源是人类时,HLP << 100% 有可能代表标注指南很模糊。
  • 改善标注一致性可以提升 HLP。
  • 虽然提昇 HLP 会让 ML 更难打败它,但更一致的标签也会提昇 ML 的表现,因此更有可能使实际应用的表现受益。

虽然上面的讨论都着重在非结构化资料,但在需要由人类进行标注的情况中,结构化资料也会遇到一样的问题,这些例外情况如下:

  • 使用者 ID 合并:是否为同一个人?
  • 资安系统:根据网路流量判断电脑是否被骇?
  • 交易预警系统:此笔交易是否为诈骗?
  • Pokemon GO:根据 GPS,玩家是否在车里孵蛋?

说了这麽多,结论就是正确且良好的标注资料对於模型表现是至关重要的,明天我们就来谈谈资料的标注吧,虽然很想这麽说,但我们要先谈的是关於收集资料的眉眉角角,那就明天见啦!
/images/emoticon/emoticon25.gif

参考资料


<<:  [DAY-19] 10 种普世价值

>>:  [Day 18] 阿嬷都看得懂的 CodePen 怎麽用

Vaadin 汉堡选单 - AppLayout - day16

Web 应用程序选单多样化,早期最常见的多半树状选单,直至手机问世後汉堡选单(hamburger m...

Day 8 规划用户的个资自主权

全球个资保护如雨後春笋般的出现,各国对於个资保护的意识更加积极主动,且也陆续参考GDPR进行个资隐私...

Day 23 - 绿专案管理(Green Project Management)

图片来源 继续延续前几篇的话题, 好巧不巧本月(2021年10月)刚出刊的专案经理杂志的封面故事,...

简单说回归 | ML#Day14

wiki 说明页:回归分析 想了解详细的说明,请见wiki或者其他参考资料。 或者也可以直接看下面,...

VScode 刚载完的必备扩充功能

各位在刚载好VScode都会做甚麽样的设定或安装甚麽扩充功能呢? 虽然网路上一大堆的介绍,但零零总总...