基础统计-让我们来聊聊叙述统计

当我们拿到一份数据资料的时候并不是直接上手开始分析,我们首先需要对进它行「观察」,并从中了解资料是否处理完善。而这个观察的方法其实就是统计里面的「叙述统计」:了解整体资料分布状态的集中趋势和离散程度

今天我们不讲数学算式,单纯来认识这些资料的特性与性质!


针对资料的集中趋势可以透过以下指标进行观察:

  • 平均数(算术平均数):资料的总和除以资料的个数所得的值。适合描述正态分布的数据,容易受到极端值的影响。
  • 中位数:位在资料分布中间的数。
  • 众数:在资料中出现最多次的数,亦可以用於非数值型的资料。

针对资料的离散程度可以透过以下指标进行观察:

  • 全距:最大值-最小值,距离越大离散程度越大。
  • 四分位距(IQR):第3四分位数-第1四分位数(不包含极端值),可用来绘制箱型图。
  • 变异数(方差):所有资料减去平均数平方和的平均。(由於样本的变异数通常都会比母体变异数要来的少,因此除以样本数-1来与母体变异数相近)
  • 标准差:变异数的平方根。

理解了资料的分布趋势後,在统计中还有一个非常重要的观念「常态分布」,且可见於自然与社会中,也是後续许多假设的前提基础。

常态分布有以下特性:

  • 平均数=中位数=众数
  • 左右对称
  • 单峰的钟形曲线

https://ithelp.ithome.com.tw/upload/images/20210916/201260801JgFpz8HKY.png


关於为甚麽要学统计?就像问船长为什麽要学会看地图一样(这是什麽神奇的比喻XD)身为菜鸟分析师的我们虽然对於特定的领域知识一无所知,但我们还是可以依赖我们的统计基础,先针对拿到手的资料进行一番观察,从中找出有趣的「发现」,并观察出资料中的「现象」。
而这些现象也许就是该领域知识的重要关键(比方说某些特定日子,数字的波动起伏呈现某些规律,可能与该公司服务的客户消费特性相关等),让你更快速的进入状况。

学好统计有其必要性,接下来就继续深入统计的世界吧!


<<:  【Day4】重要底层系统篇-Base

>>:  Day 07 line bot sdk python范例程序在做什麽

广播推送 - day24

目标 从左画面将讯息推送到右边画面,嗯! 就这样。 本示例从主画面推送讯息,其他开启本网的使用者无论...

《赖田捕手:追加篇》第 31 天:初始化 LINE BOT on Heroku

第 31 天:初始化 LINE BOT on Heroku 事实说来可笑:别试着和任何人讨论任何关於...

Day2-React Hook 篇-认识 useState

今天我们来认识一个相当常使用的 hook: useState。 语法 const [currentV...

.Net Core Web Api_笔记09_web api的属性路由模板两种写法_路由模板使用

在.net core mvc跟.net core web api专案中预设各自采用的一些配置 有不太...

#8 Web Layout: RWD

What is RWD? “Responsive web design (RWD) is a des...