[Day 6] 资料产品第三层 - 描述性模型

这边指的模型不只是最近很潮的机器学习或深度学习，而是广泛指透过资料建立用来代表现实的抽象概念（白话来说就是一堆数学）。模型并不是资料本身，但好的模型会能表现资料展现的特质。就像钢弹模型不是钢弹，但会充满真正钢弹的细节。

(图1: RX-78F00)

描述性模型

描述性模型重点在於用简单的方式来解释手上的资料。例如当你在自我介绍时，很容易就能讲出自己的身高体重，但如果要描述一个班级甚至一个城市的人的身高体重，就没办法用这种方式，因此需要一些描述性的模型来帮助我们补捉个轮廓，例如常听到的平均数、常态分配就属於这类。

不同类型的资料可以用的描述方式不同，在做分析之前一定要先辨识资料的类型。

集中趋势指的是资料往哪集中，如果数列是 [1, 2, 2, 3, 4, 5, 6]

集中趋势用来描述资料很方便，但也会丧失许多精准度，最常见的例子就是「台湾平均每个人有 1.1 个睾丸」。因此在使用上也需要注重集中趋势的特性以及资料的脉络才能避免误用。

离散趋势和集中相反，描述的是资料散乱的程度。常用的像是：

全距: 很单纯就是用最大值减去最小值，可以概括知道资料的状况。
标准差: 自己看了，有点难文字描述 https://zh.wikipedia.org/zh-tw/%E6%A8%99%E6%BA%96%E5%B7%AE，由於是个标准化的计算方式，所以不同单位的资料都可以用标准差来衡量离散程度。

通常资料实际上的长相不会是一两个数字能够完整描述的，像上图这些资料集中和离散程度可能都差不多，但是样貌天差地远。

由於资料分布会有常见的模式，因此我们也会使用一些数学公式来描述资料分布状况（像上图的 Possion 分布）。而资料的分布型态也会直接影响可以用的分类模型，像是下图这种同心圆的资料分布就不适合使用 K-Means 演算法。

一般来说，在正式进资料分析或建模前都会透过这样的探索型分析来了解资料的样貌。由於资料量通常很多，没有办法一个一个检查，因此会透过这篇介绍的描述性模型来将资料做摘要，方便分析人员可以更快了解资料的样貌、找出资料异常。这里分享一下我常用的起手式：