如何衡量万事万物 (10) 人的判断

(续上)

无变异比较 & 拉许模型

教育评量的领域,对「能力」有大量的衡量需求。其中有一个值得借监的概念是「无变异比较 (invariant comparison)。

基本概念是:

  • 如果第一项衡量工具中,发现 A 比 B 多
  • 使用另一个工具,仍然要得到 A 比 B 多

听起来是不是讲废话 XD,等於用两个体重计量体重,答案应相同。不过在 IQ 测验中,常常发生上述问题,例如第一次测量,甲的 IQ 高於 乙,换了一个工具後,乙的 IQ 就高於甲。

在商业的场景中,则可以对应到面试或衡量专案绩效时,会因为审查官「是否严格」或专案的的困难程度,会产生很大的落差,此时我们就会说这个状况的「无变异」不成立。

在 1961 年 Georg Rasch 提出了一个解决方案,可以来预测「答对是非题」的机率。

根据

  • 母体中其他受测者答对同一题的比率
  • 以及此受测者答对其他问题的比率

步骤

  • 先挑一个题目
  • 从回答问题的人当中,答对者的比率,可定义出「题目困难度」
    • → 例如 65% 代表只有 35% 的人答对
    • 计算该机率的对数胜算 (log-odds),在这里就是自然对数
    • 例如答错的比率是 0.548,他的自然对数为 -0.619
    • Excel 公式 ln(P(a)/ (1-P(a))P(a) 是答对题目的机率
  • 计算目标受测者答对所有问题的机率,例如 82%
    • In (0.82 / 0.18) = 1.52
  • 将两个对数相加 -0.619 + 1.52 = 0.9
    • 将此转换回机率,使用 Excel 公式 1/ (1 / exp (0.9) +1
    • 结果为 71%

这里的意义是,「受测者有 71% 会答对该题目」

这个模型有两个前提:

  • 题目困难度是已知的
  • 也需要知道「受测者在其他题目上的表现」

实际应用的例子

美国临床病理学会的认证:

  • 每位候选人都被指派一个或多项个案,由评审审查
  • 个案难度不一致,评审严格程度也不一致
  • 统计学家先制定标准拉计分数,包括:
    • 每个评审
    • 个案
    • 每项技术类别的候选人
  • 接着就能预测候选人在「平均的评审 & 平均的个案」下是否能通过

衡量阅读能力

  • 另一个根据拉许模型的改造框架 - Lexile Framework
  • 用来评审阅读及写作困难度
  • 美国的许多教科书的阅读进度表会以 Lexile 分级来架构

(...............最後还有一个 chapter,我读完了,但已失去了摘要的能量,就结束在今天吧orz)


<<:  [番外] 来个音乐拨放器 Play! (序)

>>:  【PHP Telegram Bot】Day23 - Inline mode(内联模式):在输入框使用机器人

{DAY 7} SQL 资料表的处理:Deleting, Altering & Dropping

前言 SQL的部分又往下一天前进 今天要延续昨天练习的内容 接续昨天使用的资料表 分成3个小部分 ...

[Day18] MySQL 的 CRUD 语法

上次我们介绍如何用 MySQL Workbench GUI 操作资料库,这次我们要来简单介绍一下 C...

【C# 群益 API 开发教学】取得商品报价、Tick、最佳 5 档教学 #CH3 (附范例)

群益 API 是利用自己开发的程序,结合群益 API 在群益券商下单的一种方式,通常是做程序交易下单...

[Day 06] 一个单元测试的题目-闰年的判断

过了这麽多天, 我们终於进入到主题了, 这一次我们使用的题目, 是输入一个正整数(西元年), 然後判...

DAY18 搞样式--CSS Gird 是什麽?

前言 因为这次排班小工具作品需要用到月历呈现方式,经过了小小思考觉得...好像用 CSS Gird ...