如何衡量万事万物 (4) 校准过度自信的估算

今天摘要的段落是可以「跟着做」的练习,我觉得今天的段落超有趣的!!!

前情提要

今天内容是【CH5. 校准的估算:你目前所知有多少?】的前半,延续昨天的进度,在真正进行衡量之前,需要思考的议题有:

  1. 这项衡量要支援什麽决策?
  2. 要衡量的事物,若用可观察到的结果来定义,会是什麽?
  3. 这个事物如何影响相关决策?
  4. 关於这项衡量,你目前所知有多少?(也就是,目前的不确定程度为何?)
  5. 额外资讯的价值为何?

在本章中,作者讨论的是第 4 题。目标是「了解你已经知道的事」,说得更具体一点,是学会用「量化的表达方法」,来表达自己「已经知道的事」。

在上章 IT 防护的例子里,我们看到专家对病毒攻击影响做出了数量的估算(昨天的最後一张图),作者表示,「有 90% 的机会,真实的数值会落在专家给定的上下区间内」。而本章就在讨论,为什麽当专家说有 90% 机会时,就是 90% 会正确。

表达不确定性的方法

刚才说的「表达目前知道什麽」,其实是指「表达不确定性」(注:不确定性=一种以上的可能)

表达方式有:

  • 范围:例如 1000~2000。
    • 这个范围有一定机会可以包住正确答案。这个机会称为「信赖区间 (confidence interval, CI)」,例如上文 IT 专家的信心是 90% CI。
  • 是否 & 机率:例如 70% 机率客户会成交 or 70% 机率不会成交。

过度自信

接下来作者表示,没有经过「校准训练」过的人,靠经验或直觉给出范围或机率时,绝大多数人都有「过度自信」的情况。(反之则为信心不足,但绝大多数人是过度自信)

也就是,当我们要求 90% CI 的估算时,正确答案落在区间的次数少於 90%。

接下来作者介绍校准这种「过度自信」状况的方法!这个环节很有趣!强烈建议跟着做!

校准练习

接下来作者会给出 10 个题目,让读者可以尝试写出范围 & 机率。写完後会有一连串的引导,来让读者体会「为什麽你估出的数字是过度自信的」,以及校准的方法。

作者真正的校准研习营中,他会给出更多的题目,用至少半天的时间来进行校准练习,真正建立思考的习惯。而在书中只提供了 10 个题目,作者表示:对未经训练的人,光是 10 个题目就可以看出很明显的倾向。

1. 范围练习:目标 90% CI

首先是范围类的练习,目标是达到 90% CI,也就是等下对答案时,10 题要有 9 题是命中的。

提醒:

  • 不要查询任何资料,把注意力放在「你现在已知的资讯(或看法)」
  • 范围要够大,以达成 90% CI

题目如下,请写出范围的上限与下限:

  1. 1938 年英国蒸汽火车头以多快的速度创下新的速度纪录(英哩/小时)
  2. 牛顿爵士在哪一年发表万有引力定律
  3. 一般商务名片长度为多少英寸
  4. 网际网路 (当时叫 Arpanet) 是在哪一年建立做为军方的通讯系统?
  5. 莎士比亚出生於哪一年
  6. 纽约到洛杉矶之间的飞行距离是多少英哩?
  7. 一个圆形占据等宽正方形面积的比例?
  8. 卓别林於几岁时去世?
  9. 这本书第一版的重要为几英磅?
  10. 电视影集《梦幻岛》(Gilligan's Island) 第一次播出的日期

2. 是否练习

接着要针对每项叙述选择「是/否」,然後圈出一个「机率」来反映你对答案的信心程度,通常情况是:

  • 你完全确定你的答案,则机率是 100%
  • 若你毫无概念,机率等同於掷硬币,也就是 50%

等等在练习时,直接从 50%, 60%, 70%, 80%, 90%, 100% 之间选一个就好了。

叙述:

  1. 古罗马人是被古希腊人征服的
  2. 世界上没有三峰骆驼
  3. 1 加仑的汽油比 1 加仑的水重量轻
  4. 火星到地球的距离永远大於金星到地球的距离
  5. 波士顿红袜队赢得第一届世界大赛
  6. 拿破仑出生於科西嘉岛
  7. M 是英文中最常用到的三个字母之一
  8. 2002 年桌上型电脑平均的购买价格低於 1500 美元
  9. 詹森在当副总统之前是州长
  10. 1 公斤比 1 英磅重

测验:你的估算是否为 90% CI

在对答案之前,要来衡量刚才的估算是否为 90% CI。

作者从题目中选出其中一个,「牛顿爵士在哪一年发表万有引力定律」来做实验。

A. 如果对答案之後,你命中了牛顿的书籍出版日,你可以获得 1000 美元

B. 去玩一个转盘游戏(如下图),如果转盘停在 90% 的区间,你可以赢得 1000 美元。

https://ithelp.ithome.com.tw/upload/images/20210925/20129237bTDHyH1QiH.png

你会选哪一个?

作者将此实验称为「相等赌局测试 (equivalent bet test)」,

  • 在实验中,绝大多数人会选择转盘游戏,
  • 这代表你认为轮盘的机会更高
  • 也就是说,刚才的估算,不是真正的 90% CI(可能是 50% CI,总之低於 90%)
  • 你表达出来的不确定程度,低於真正的不确定性

对答案

接下来可以对个答案,来看看命中率。

https://ithelp.ithome.com.tw/upload/images/20210925/201292371fTab8P5Zk.png

btw 我在书上发现了 2014 年的练习纪录,因为是过去的事了,所以我就不带羞耻地分享出来。

https://ithelp.ithome.com.tw/upload/images/20210925/20129237F37A4BC6qy.png

评估结果

  • 范围题的正确题数
    • 少於 7 个 - 过度自信
    • 少於 5 个 - 非常过度自信
  • 是非题
    • 把每一题圈选的机率转成小数,例如 0.5, 0.6...
    • 然後加总,例如 7.9,这代表你预期答对 7.9 题
    • 和答对的题数相信,若比预期答对题数少 2.5,仍可能是过度自信

作者表示:整体来说人们在是非题的表现会比范围题好,但通常在训练前,一致有过度自信的情况。作者的统计在是非题型里,平均预期 74% 答对,而真实情况是 62% 。

至於范围题,会有超过 56% 的人表现非常非常差,不过真正「尺度准确的人」,只有 1/ 612 的错误机率。

改善手法

本章的後半,作者介绍了他在「校准训练班」中,会用什麽方式来改善,依作者的经验,在半天的密集训练後,通常就会获得大幅校准。

除了前面的相等赌局,还有:

重复与反馈

针对先天普遍的过度自信状况,具体的训练:

  • 用大量题目 + 相等赌局测试
  • 「先直觉做 - 公布答案 - 再做一次」

考虑两个同意和反对意见

上述的重复与反馈,一开始执行的效果不佳,於是作者加入了班级讨论:

  • 在讨论时,请人们对「每一项估计的有效性」提出同意和反对的看法
  • 想出至少 2 个对你的评估有信心的理由,再想出可能错误的 2 个理由

加入讨论之後,全班同学的尺度表现会大幅提高

反定锚

范围题目表现很差的理由是,在我们的心理机制里,人们直觉产生范围的模式是:

  • 直接定锚 (anchoring) 在某个数值上
  • 增加上下的「误差」,得到范围

如此一来非常容易范围太窄。

在训练时,作者会:

  • 单独检视上限和下限,把这个数值转为是否题,例如「你是否 95% 确定他超过/低於这个数字」
  • 用这种刻意训练,来改善先天的「定锚」模式

或者使用荒谬测试 (absurdity test):

  • 从一个宽到荒谬的范围开始,
  • 逐渐删除你知道极不可能的数值,有意识地慢慢缩小

一样是在克服定锚模式,把「我认为数字是多少」转换成「什麽数字是荒谬不可能的」

常见迷思

在书中作者记录了一些实际的对话,这里只快速摘要作者的心得。

最常见的心理障碍:「如果不知道一个确切的数量,我就等於不知道任何事」。

  • 愈是有「专家」头衔的人,对於给出不确定的数量有愈高的心理抗拒。
  • 但专家的确会「知道一些事」,这些事能转化成量化的不确定性

遇到这种情况,作者通常会用「荒谬测试」的手法,引导专家说出「非常不可能发生的数值」,来产生 90% CI 的范围。

在估算时,有些人会「假设」一个范围

  • 但「假设」不适合用在这里,因为假设不是一个你真正确定的东西
  • 此时,你大可以放宽范围,来反映出你「真正确定」的资讯

校准估算的价值

在进行尺度校准前,由於人们的数字错误机率太高,以至於绝大多数的认为「要进行真正的数学运算」,才能获得估计。

然而,作者认为,在进行校准以後,你可以获得 90% CI 的范围,因此你可以用极低成本的方式,快速建立最初的量化分析。


今日进度:90~115 页

btw 我在 2014 买这本书时,读到 CH6 之後放弃了,CH6 会介绍蒙特卡罗风险分析模型,是一个数字含量较高的章节,我应该是在看完 CH6 後产生了心理上的厌恶感XD

先回顾一下上次的失败⋯⋯帮自己做一些心理建设⋯⋯


<<:  【Day10】列举技术的实作 ─ DNS篇

>>:  【Day 10】- 你的爬虫是哪一类的? (网路爬虫的类型)

30 天 React 学习之路 (Day1)

React 的网路资源很多,这个系列只忠实纪录 30 天阅读 React 官方文件, 消化吸後的所知...

[ Day 15 ] React Hooks 中的 useState

昨天 Day 14 跟大家介绍了 React Hooks 的基本概念之後,今天就要马上带大家来看第...

DAY30:Strategy Pattern,选定不同的策略来执行

什麽是 Strategy Pattern? 设计相同介面但不同实作的物件,再由使用端以此介面去选择要...

Flutter体验 Day 4-Dart CheatSheet (2)

Dart CheatSheet (2) 认识 Dart 程序语言,从官方提供的dart-cheats...

Netlify CMS : 完全就是为了 JAMstack 而设计的 CMS 系统

Netlify CMS 完全就是为了 JAMstack 而设计的 CMS 系统 前面分享了直接使用第...