如何衡量万事万物 (10) 人的判断

（续上）

无变异比较 & 拉许模型

教育评量的领域，对「能力」有大量的衡量需求。其中有一个值得借监的概念是「无变异比较 (invariant comparison)。

基本概念是：

如果第一项衡量工具中，发现 A 比 B 多
使用另一个工具，仍然要得到 A 比 B 多

听起来是不是讲废话 XD，等於用两个体重计量体重，答案应相同。不过在 IQ 测验中，常常发生上述问题，例如第一次测量，甲的 IQ 高於乙，换了一个工具後，乙的 IQ 就高於甲。

在商业的场景中，则可以对应到面试或衡量专案绩效时，会因为审查官「是否严格」或专案的的困难程度，会产生很大的落差，此时我们就会说这个状况的「无变异」不成立。

在 1961 年 Georg Rasch 提出了一个解决方案，可以来预测「答对是非题」的机率。

根据

母体中其他受测者答对同一题的比率
以及此受测者答对其他问题的比率

步骤

先挑一个题目
从回答问题的人当中，答对者的比率，可定义出「题目困难度」
- → 例如 65% 代表只有 35% 的人答对
- 计算该机率的对数胜算 (log-odds)，在这里就是自然对数
- 例如答错的比率是 0.548，他的自然对数为 -0.619
- Excel 公式 ln(P(a)/ (1-P(a))，P(a) 是答对题目的机率
计算目标受测者答对所有问题的机率，例如 82%
- In (0.82 / 0.18) = 1.52
将两个对数相加 -0.619 + 1.52 = 0.9，
- 将此转换回机率，使用 Excel 公式 1/ (1 / exp (0.9) +1
- 结果为 71%

这里的意义是，「受测者有 71% 会答对该题目」

这个模型有两个前提：

题目困难度是已知的
也需要知道「受测者在其他题目上的表现」

实际应用的例子

美国临床病理学会的认证：

每位候选人都被指派一个或多项个案，由评审审查
个案难度不一致，评审严格程度也不一致
统计学家先制定标准拉计分数，包括：
- 每个评审
- 个案
- 每项技术类别的候选人
接着就能预测候选人在「平均的评审 & 平均的个案」下是否能通过

衡量阅读能力

另一个根据拉许模型的改造框架 - Lexile Framework
用来评审阅读及写作困难度
美国的许多教科书的阅读进度表会以 Lexile 分级来架构

(...............最後还有一个 chapter，我读完了，但已失去了摘要的能量，就结束在今天吧orz）

<<: [番外] 来个音乐拨放器 Play! (序)

>>: 【PHP Telegram Bot】Day23 - Inline mode（内联模式）：在输入框使用机器人

强型闯入DenoLand[36] - Deno 1.6 释出!

杂谈

DAY13-JAVA的类别(7)-内部类别

杂谈

react 大冒险-setTimeout setInterval in react -day 24

杂谈

【少女人妻的30天Elastic】Day 27 : App Search_API 介绍与应用_Search Settings

杂谈

Day 16 ml5.js

杂谈

{DAY 7} SQL 资料表的处理：Deleting, Altering & Dropping

前言 SQL的部分又往下一天前进今天要延续昨天练习的内容接续昨天使用的资料表分成3个小部分 ...

[Day18] MySQL 的 CRUD 语法

上次我们介绍如何用 MySQL Workbench GUI 操作资料库，这次我们要来简单介绍一下 C...

【C# 群益 API 开发教学】取得商品报价、Tick、最佳 5 档教学 #CH3 (附范例)

群益 API 是利用自己开发的程序，结合群益 API 在群益券商下单的一种方式，通常是做程序交易下单...

[Day 06] 一个单元测试的题目-闰年的判断

过了这麽多天，我们终於进入到主题了，这一次我们使用的题目，是输入一个正整数(西元年)，然後判...

DAY18 搞样式--CSS Gird 是什麽？

前言因为这次排班小工具作品需要用到月历呈现方式，经过了小小思考觉得...好像用 CSS Gird ...