这边指的模型不只是最近很潮的机器学习或深度学习,而是广泛指透过资料建立用来代表现实的抽象概念(白话来说就是一堆数学)。模型并不是资料本身,但好的模型会能表现资料展现的特质。就像钢弹模型不是钢弹,但会充满真正钢弹的细节。
(图1: RX-78F00)
(来源:https://www.datavedas.com/descriptive-statistics/)
描述性模型重点在於用简单的方式来解释手上的资料。例如当你在自我介绍时,很容易就能讲出自己的身高体重,但如果要描述一个班级甚至一个城市的人的身高体重,就没办法用这种方式,因此需要一些描述性的模型来帮助我们补捉个轮廓,例如常听到的平均数、常态分配就属於这类。
不同类型的资料可以用的描述方式不同,在做分析之前一定要先辨识资料的类型。
集中趋势指的是资料往哪集中,如果数列是 [1, 2, 2, 3, 4, 5, 6]
集中趋势用来描述资料很方便,但也会丧失许多精准度,最常见的例子就是「台湾平均每个人有 1.1 个睾丸」。因此在使用上也需要注重集中趋势的特性以及资料的脉络才能避免误用。
离散趋势和集中相反,描述的是资料散乱的程度。常用的像是:
(https://jackrowansflightlogs.blogspot.com/2020/04/uniform-data-distribution.html)
通常资料实际上的长相不会是一两个数字能够完整描述的,像上图这些资料集中和离散程度可能都差不多,但是样貌天差地远。
(https://www.quora.com/How-is-Poisson-distribution-the-limit-of-binomial-distribution)
由於资料分布会有常见的模式,因此我们也会使用一些数学公式来描述资料分布状况(像上图的 Possion 分布)。而资料的分布型态也会直接影响可以用的分类模型,像是下图这种同心圆的资料分布就不适合使用 K-Means 演算法。
一般来说,在正式进资料分析或建模前都会透过这样的探索型分析来了解资料的样貌。由於资料量通常很多,没有办法一个一个检查,因此会透过这篇介绍的描述性模型来将资料做摘要,方便分析人员可以更快了解资料的样貌、找出资料异常。这里分享一下我常用的起手式:
https://wiki.mbalib.com/zh-tw/%E6%A8%A1%E5%9E%8B
https://www.sciencedirect.com/topics/computer-science/descriptive-model
https://towardsdatascience.com/exploratory-data-analysis-eda-a-practical-guide-and-template-for-structured-data-abfbf3ee3bd9
使用 docker compose 来串起一连串的 Container 服务前,这边先笔记下一些在过...
正文 kubectl create ns kubecost wget https://raw.git...
前言: 本篇是参加学校开设的java资讯班的作业,由於对於笔者来说花蛮多时间的,所以想记录下来解题的...
今天纪录资讯安全的攻击与威胁里的社交工程。 社交工程 社交工程是一种透过沟通、欺骗的手法,取得他人的...
本来打算一篇写完的,结果居然要分成三篇 XD 前端工具挑选 前端的部分可以搭配框架来建立 比较有名的...