推论统计暖身 - 中央极限定理

在开始正式进入推论统计之前,我们需要熟悉两个基本观念,一个是中央极限定理,一个是假设检定

这些观念之所以重要是因为我们无法把所有的母体全部抓过来一个一个去看,因此我们需要透过一小搓的样本数来推论出母体的轮廓,这也是推论统计的强大之处。你一定很好奇这是怎麽办到的,想要运用这个强大的工具,我们首先必须要了解建立在此之上的前提:中央极限定理

什麽是中央极限定理?

我们首先来看中央极限定理的定义,依据维基百科:在适当的条件下,大量相互独立随机变数的均值经适当标准化後依分布收敛於常态分布。

诶...讲人话?/images/emoticon/emoticon02.gif

从任何母体随机抽取大量独立的随机变数,其平均值会趋近於常态分布。

好!相信有一些人已经懂了,有些人可能觉得还是一样一头雾水。
没关系,我一开始在学的时候也是根本没有理解这句话到底是什麽意思。

中央极限定里的定义

首先来拆解这句话 「从任何母体随机抽取大量独立的随机变数,其平均值会趋近於常态分布。」 总共有几个关键字我们需要注意:随机抽取、独立变数、平均值

随机抽取和独立变数都好理解,为了防止样本有人为的偏误,但为什麽是平均值?

其实在现实生活中,原始资料并未遵循常态分布是很常见的状况。但聪明的科学家发现,当把其中几笔资料总和的平均值计算出来後,图形将会逐步收敛为常态分布,而且随着资料量的增加收敛的情况越明显。(这边的证明会牵扯到许多数学,想要研究的人可以找资料来看。)

因此,我们可以来看看中央极限定理的特性:

当「样本平均数抽样分布」抽样之样本数n趋近於无限大时,依据中央极限定理其分布具有:

  1. 样本平均数抽样分布会趋近常态分布。
  2. 样本平均数抽样分布之平均数会等於母群体平均数。
  3. 样本平均数抽样分布的标准误,又称「平均数之标准误差」,会等於母群体标准差除以样本数 n 的平方根。(随着n增加,平均数之标准误会随之变小。)

你看到了什麽?对!样本平均数抽样分布之平均数会等於母群体平均数!

知道这个我们可以干嘛?

也就是透过这个概念我们可以推估母体的平均值,且标准误差愈小,样本统计量愈接近母群的参数。

而这里的标准误指的是样本平均数抽样分布的标准差,用以量测样本分配的变异程度,与标准差用以量测样本的变异程度不同。

也就是说,标准误差即是在大量样本自母群被取样之後,用以代表样本平均值分散性。它所描述的是对应样本平均数抽样分布的离散程度,也是衡量对应样本平均数抽样误差大小的尺度。

好~终於明白中央极限定理在做什麽了,它其实就是帮我们解决非常态分布形的离散资料,协助我们了解样本平均数与母体平均数之间的差距(机率)。

了解中央极限定理之後,让我们来前进推论统计的核心之一假设检定!


参考资料:

http://homepage.ntu.edu.tw/~clhsieh/biostatistic/5/5-1.htm

http://web.cjcu.edu.tw/~jdwu/stat01/lect002.pdf

https://medium.com/qiubingcheng/中央极限定理-central-limit-theorem-clt-c5e47d091865

https://medium.com/qiubingcheng/假设检定基础观念-948dffc4b808

http://amebse.nchu.edu.tw/new_page_552.htm


<<:  [从0到1] C#小乳牛 练成基础程序逻辑 Day 6 - Type Casting 显性/隐性转

>>:  虹语岚访仲夏夜-7(专业的小四篇)

Day29 NodeJS实作 III

新增功能完成後,接着是待办事项列表与删除待办事项。 前两天为了说明前後端应用程序和关联把文章写得有点...

Day17 PHP的常用函数-2:数组

数组 array(): 生成一个数组 range(): 创建并返回一个包含指定范围的元素的数组 co...

DAY4:Kaggle-Data Science London + Scikit-learn(一)

Kaggle-Data Science London + Scikit-learn(一) 大家好~K...

Day16 测试写起乃 - 测试覆盖率

测试覆盖率在测试中的环节也是需要顾及的,我们今天会使用 SimpleCov 来算测试覆盖率 安装 S...

[Day12] 策略最佳化模组改造(2)

现在要来处理上一篇文章的红框部分,输入N个np.arange让他跑for loop。今天在网路上看了...