就像稻米之於米苔目,小麦之於面疙瘩,原始资料就是任何资料产品最基础的存在。
在研究所修读统计的时候,教授常常挂在嘴边的一句话就是「garbage in, garbage out」。统计就是什麽资料放进去都可以算出什麽结果,但是这个结果要有意义的先决条件就在於拿来分析资料的品质。资料的品质和种类会直接地影响资料产品最终的品质。
这边就来举一些耳熟能详由於资料品质偏差造成的谬误
PTT 乡民年收入都 100 万起跳
PTT Salary 版常常有人在分享薪资,不管是刚转职三年破百,还是强者我同学大学一毕业就破百,都没看到有人薪水低於 100万的例子。如果你是一个资深 PTT 乡民,可能就以为这个世界薪水就是百万起跳。大家都知道这是谬误(看看自己的薪水条),但到底是哪里有问题?我们可以从以下几点来分析:
如果是面对面访谈,我们还可以从眼睛大概的去辨识性别和年龄,但如果是电话访问或线上调查,这些都无法直接证实,何况是更难判断职业和收入。但也有一派的论点是说,由於网路的匿名性,受访者会比较愿意提供真实的资料作为参考,但是随着网路也越来越不匿名(可能透过 ID 或 IP 反查个人),这样的调查本身的真实性就受到考验。
幸存者偏差?
幸存者偏差是一种选择上的谬误(Wiki-幸存者偏差)。PTT 大家都知道是一个相对老派的社交平台,而且当初 PTT 就台大学生用最多,所以会留在上面发文的都是一群本来学历就还不错,而且都有些工作经验的人,所以大家的起薪本来就会比政府调查的还高很多。
由於抽样设计不良的抽样误差
如果基於实务考量无法调查所有人的薪资,那我们就抽样吧。抽样本身是个好主意,那要怎麽抽呢?网路上发放问卷看起来是一个挺随机的方法,但也会受到「问卷可触及到的所有可能受访者」这个限制。例如如果你只把问卷放在 PTT 上,那其实也只有 PTT 上的使用者有可能填问卷。如果你把问卷放在抖音上,那接触到的受访者就是另外一批人。
即便是使用电话随机拨号,也是只能接触到拥有电话号码的人,如果有一个人有一千个电话号码,那这个人接受到访问的机率也会大幅上升。
就算是设计良好的抽样本身还是存在的抽样误差
抽样本身在统计上就带有一定的不确定性。配合适当的统计方法可以帮助我们这个抽样误差的影响。但还是会发生误差!医学检验本身也带有统计的性质,所以有可能发生下面这种在男性身上检验出怀孕,或是在怀孕女性身上检验出没有怀孕的状况。需要配合多个检验方式才能确定情况(例如眼睛)。
(Image source: unbiasedresearch.blogspot.com)
大数据不就好了?
的确大数据帮忙我们处理了抽样的问题,但是大数据也无法直接的解决资料本身是否真假的问题(当然我们可以透过各种数据的比对来验证资料真假)。但是当数据太多的时候,也会造成资料在处理以及计算上的烦恼,到那时後还是需要透过其他手段来降低资料处理的复杂度或是计算时间。
收集资料时的其他可能偏误
即便使用电子产品(例如 APP)来搜集使用者使用资料,像是点击、浏览,看起来定义很清楚,而且很自动化的收集方式,还是有可能产生误差。例如使用者重复点击的行为、或是使用爬虫造成的虚假点击、或是由於网路传输问题造成的资料传输失败等等。没有绝对万无一失的资料搜集方式!
我们需要原始资料来做分析,但是又不可能完全避免原始资料的各种偏误,这就是我们面对的现实。因此在分析资料时更需要小心处理各种「Insight」。
例如透过爬虫搜集 PTT 资料发现乡民平均 30 公分时,需要回追你搜集的资料是出现在哪些版面、大家又是在什麽情境下提到 30 公分、是一个开玩笑的语境、还是是一个认真在讨论、求知的语境。
当你今天发现自己 APP 的每天活跃人数掉了 80% 时,先不要紧张,可以先循序列出你的分析报告使用的资料是从哪来,依序去观察是不是哪部分的资料漏掉或有处理上的错误,说不定只是哪个 Web 更版没有带到追踪码、或是哪个资料栏位命名错误而已。
我们前面讲过一些 C# 中的运算符,如,加、减,等等。今天我们补充两个特殊的运算符,is 和 as ...
前言 昨天已经模拟出改价了,现在更进阶,使用小台的现价来改价。 参考网站:Futures 本日程序码...
首先将触发技能的判断一道ActionBattle_Action里 写一个新方法actorTrigge...
变数宣告 // 宣告区域变数 let local_var = 123; 不可变变数 let immu...
如题,有下载 pip install pandas pip install pandas_datar...