在开始正式进入推论统计之前,我们需要熟悉两个基本观念,一个是中央极限定理,一个是假设检定。
这些观念之所以重要是因为我们无法把所有的母体全部抓过来一个一个去看,因此我们需要透过一小搓的样本数来推论出母体的轮廓,这也是推论统计的强大之处。你一定很好奇这是怎麽办到的,想要运用这个强大的工具,我们首先必须要了解建立在此之上的前提:中央极限定理。
我们首先来看中央极限定理的定义,依据维基百科:在适当的条件下,大量相互独立随机变数的均值经适当标准化後依分布收敛於常态分布。
诶...讲人话?
从任何母体随机抽取大量独立的随机变数,其平均值会趋近於常态分布。
好!相信有一些人已经懂了,有些人可能觉得还是一样一头雾水。
没关系,我一开始在学的时候也是根本没有理解这句话到底是什麽意思。
首先来拆解这句话 「从任何母体随机抽取大量独立的随机变数,其平均值会趋近於常态分布。」 总共有几个关键字我们需要注意:随机抽取、独立变数、平均值。
随机抽取和独立变数都好理解,为了防止样本有人为的偏误,但为什麽是平均值?
其实在现实生活中,原始资料并未遵循常态分布是很常见的状况。但聪明的科学家发现,当把其中几笔资料总和的平均值计算出来後,图形将会逐步收敛为常态分布,而且随着资料量的增加收敛的情况越明显。(这边的证明会牵扯到许多数学,想要研究的人可以找资料来看。)
因此,我们可以来看看中央极限定理的特性:
当「样本平均数抽样分布」抽样之样本数n趋近於无限大时,依据中央极限定理其分布具有:
你看到了什麽?对!样本平均数抽样分布之平均数会等於母群体平均数!
知道这个我们可以干嘛?
也就是透过这个概念我们可以推估母体的平均值,且标准误差愈小,样本统计量愈接近母群的参数。
而这里的标准误指的是样本平均数抽样分布的标准差,用以量测样本分配的变异程度,与标准差用以量测样本的变异程度不同。
也就是说,标准误差即是在大量样本自母群被取样之後,用以代表样本平均值分散性。它所描述的是对应样本平均数抽样分布的离散程度,也是衡量对应样本平均数抽样误差大小的尺度。
好~终於明白中央极限定理在做什麽了,它其实就是帮我们解决非常态分布形的离散资料,协助我们了解样本平均数与母体平均数之间的差距(机率)。
了解中央极限定理之後,让我们来前进推论统计的核心之一假设检定!
参考资料:
http://homepage.ntu.edu.tw/~clhsieh/biostatistic/5/5-1.htm
http://web.cjcu.edu.tw/~jdwu/stat01/lect002.pdf
https://medium.com/qiubingcheng/中央极限定理-central-limit-theorem-clt-c5e47d091865
https://medium.com/qiubingcheng/假设检定基础观念-948dffc4b808
http://amebse.nchu.edu.tw/new_page_552.htm
<<: [从0到1] C#小乳牛 练成基础程序逻辑 Day 6 - Type Casting 显性/隐性转
如果顾问对客户说:「尊敬的贵宾,您说的都对...(後略○○字),但我们需要聚焦在关键○○○...(後...
BERT输出了什麽? 回应上一篇关於词嵌入Token Embedding的讨论,BERT的输出就是文...
程序码 今天来学习文字换行 export default function App() { cons...
本篇文章在介绍 celery 的重试策略,如果有问题或是错误,欢迎留言讨论!! 一、简介 稍微在网路...
URL : https://tryhackme.com/room/agentsudoctf IP ...