Day 2 云端上的资料流

云端的分类

第一次点开AWS官网( https://aws.amazon.com/ )或许会有点眼花撩乱,因为在不同的使用场景,对云端的分类会有不同的用法。维基百科*上有详细的分类说明,在云端平台上选用模组时常用到的是以「服务模式」作为分类的区分方式 :
基础设施即服务 : IaaS, Infrastructure as a Service
平台即服务 : PaaS, Platform as a Service
软件即服务 : SaaS, Software as a Service

了解这个分类可以帮助我们入门云端产品,不同类别决定使用者要控制的机器的深度,越往下越不会接触到底层的作业系统;查看产品介绍时常见的”Managed”, “Fully Managed”也是可以同理看出差别的关键字。当平台帮我们托管的系统层面越多时,就可以越专注於资料本身。

另外,在云端世界中,常见不同的应用场景会有不同的架构,类似买电脑有文书机和电竞机的差别,而解决方案,就像是AWS先帮使用者分类出一些符合某一种应用需求的产品,方便快速查找。图片中也可看出,要使用「资料分析」相关的服务,可以清楚得在首页中或是(注册完帐号後)在帐号上方的下拉选单都能快速找到。
https://ithelp.ithome.com.tw/upload/images/20210914/20140161SmtkAJ5VuZ.pnghttps://ithelp.ithome.com.tw/upload/images/20210914/20140161MnxaENsUYC.png

资料流

本次主题的数据分析偏CRISP-DM*定义的资料探勘流程,会介绍资料如何从原始资料(raw data)到提取出洞见(insight)的过程,会提到以下两个模组 :

资料分析:Data Analytics模组
AWS 的分析服务有资料仓储、资料湖、互动式分析、大数据处理、和视觉化仪表板等,将各个符合自己需求的模组串接起来,就建好了一个资料分析的架构,也就是资料管线Data Pipeline。如何选出符合当前需求的模组,便是本次主要讨论重点,会在未来几天透过「大数据5V」作为切入的问题的框架进一步讨论。

资料探索:Machine Learning模组
主题最後会浅谈机器学习模组,因为一个完整的资料分析架构最後通常会串接视觉化仪表板或是机器学习模组。仪表板是呈现原始资料经过资料处理、资料分析後所归纳出的结果的常用方式;而搭配机器学习模组可以将分析结果再进一步的利用演算法产生预测以利决策或其他应用。

*云端的分类(https://zh.wikipedia.org/wiki/%E9%9B%B2%E7%AB%AF%E9%81%8B%E7%AE%97 )
*CRISP-DM是跨行业资料探勘过程标准(cross-industry standard process for data mining): 商业理解(Business Understanding)、资料理解(Data Understanding)、资料准备(Data Preparation)、建模(Modeling)、评估(Evaluation)、发布(Deployment)


<<:  【Day14】利用Ezyme来跑个小小测试,还有..测试权衡是虾咪东东 (•ө•)!!?

>>:  Day8 单纯贝氏分类器 (Naive Bayes Classifier)

Snapshot API测试

接下来照着永丰提供的github, 下一个要使用到的是快照-Snapshot的部分, 简单来说就是当...

【C language part 4】阵列与字串&函式

阵列 阵列是一群具有相同名称或资料型态的变数集合。 由於整个阵列中的变数均具有相同的名称,因此若要存...

DAY22 用 Azure Machine Learning SDK 建立环境

DAY22 用 Azure Machine Learning SDK 建立环境 我们在前面图形化介面...

30天学会C语言: Day 23-被消失的型别

stdbool.h 这个函式库定义布林型别,以及 true 和 false 两个常数 布林变数 用 ...

[Golang]panic是什麽?-心智图总结

1. panic是什麽? 程序在运行时,发生意料之外的程序异常。例如: 访问,不存在的array。 ...