DAY05 资料分析的步骤

一、资料分析步骤

资料分析大致流程分成这几个步骤。如下图所示。透过图示了解大致流程後,我们将来逐一探讨每个步骤的功用及方法。
https://ithelp.ithome.com.tw/upload/images/20210904/20140427opMxSY5rMY.png


二、收集资料

这个步骤在学生阶段比较少做。因为通常参加比赛时,主办方都会给出完整的资料让你去做分析。但未来到外面工作後,这个阶段就很重要了。你必须要很清楚现阶段公司或厂商需要分析什麽、做出什麽。若收集资料时跑偏了,就算後面分析得很强,模型用的多厉害,但主管要看到的却不是这个。那麽公司的问题依然没解决。


三、探索性资料分析

探索性资料分析其实有点类似挖宝藏的概念。透过一些统计观念、图表可以让读者迅速了解整笔资料的架构,当你对手中握有的资料越了解,就越清楚下一步应该怎麽做。简单来说把资料挖得越深,就越能知道这笔资料能够为你带来什麽有用的资讯。

1.探索性资料分析的方法

一般来说探索性资料分析一般透过画图或统计方法来做。透过此步骤能够比较容易读懂内容,也比较容易解释给其他人听。因此详细的实作部分我们会在第六篇和第七篇来做说明。


四、资料前处理

资料前处理,顾名思义就是在做资料分析前先将资料处理好。

1.为何要做资料前处理

不管是自己收集的资料或是比赛给的资料,拿到的资料不一定是完整的,有可能存在一些问题像是缺值、资料笔数过少、资料key错,甚至他给的资料根本不是你想要的格式,若直接将这种资料丢进去做分析,那预测出来的结果一定与实际有很大的差异。因此资料前处理是资料分析中相当重要的步骤之一。

2.资料前处理的方法

在刚入门阶段,比赛、专案中最常遇到的问题不外乎就是资料缺值、资料不平衡、资料含有离群值等问题。而要如何解决这些问题,我们会在後面逐步说明。


五、特徵工程

当我们拿到一笔资料,资料中每个特徵不一定都是我们需要的,甚至有些特徵还会影响原本正确的结果,这时候就要挑选出对目标来说有用的特徵。例如统计学所提到的相关系数,就是让我们看出资料之间的相关性,进而选出有用的特徵。当然上面叙述的是最基本的。至於还有哪些方法到後面我们也会详细说明。


六、模型选择及参数调整

刚入门资料分析时,我们通常会套入别人写好的模型。将整理好的资料丢入模型,模型就会给出一个预测的答案。当然随着能力的精进,当然也必须更深入了解模型的运行,不能光靠套模型打天下。本篇的重点主要是给刚入门的新手,因此我们会告诉你们什麽样的资料适合什麽样的模型,让你们动手去完成一个简单的专案。


七、结果分析

因为模型预测出来的结果是预测值,所以一定会存在着误差,我们要怎麽去看预测结果的好坏,就是结果分析的目的。以机器学习来说资料分为回归与分类两大类的问题,两者的评估指标也不太相同,至於怎麽使用,我们到後面会搭配案例来详细说明。

1.回归问题

  • MAE, Mean Absolute Error, 范围: [0, ∞]
  • MSE, Mean Square Error, 范围: [0, ∞]
  • R-square, 范围: [0, 1]

2.分类问题

  • AUC, Area Under Curve, 范围: [0, 1]
  • F1 - Score (Precision, Recall), 范围: [0, 1]

八、结论

透过上述这些步骤是不是稍微了解人们口中的资料分析在干嘛了呢?照着这个流程学习就能够完成线上大部分的比赛了,那麽我们接下来要介绍的就是各个步骤的方法,继续看下去吧~


<<:  灵异现象 - 我改了档名它就换了一个档案格式耶

>>:  [Day05] Web API 专案架构

小蛙借钱给你的交易概念!!

先建个表方便理解 mysql> create table account ( -> id...

[Day11] Esp32s用AP mode + LED

1.前言 讲了那麽多天的理论,现在该来让各位多动手实作啦,今天主要是会运用Esp32s内建的WiFi...

[D03] 取样与量化(1)

我们在用电脑处理影像时,由於电脑只看得懂数字,所以影像必须要以离散(discrete)的形式处理,也...

[Day25] 测试一定要写好写满?时间有限怎麽办?

既然要写测试,就先来了解前端常见的几种测试类型,从最大家最常听到的单元测试(Unit Testing...

VPC(二)

VPC使用 昨天提到了关於VPC是什麽?以及如何简单的建立VPC XPN等的内容,那今天就来说说关於...