DAY 15 Big Data 5Vs – Variety(速度) Glue(3) Glue Studio

在资料分析的过程中,花最多时间的事就是在理出资料处理的逻辑,要花很多时间与资料互动,就像第二天提到资料探勘流程中的三个阶段:资料准备(Data Preparation)、建模(Modeling)、评估(Evaluation),其实都会需要一直迭代的,直到取得有效的结果或可行的方案,资料处理更是占了整个探勘流程多数的时间。所以AWS和市面上许多ETL的工具,都希望可以帮使用者优化这个流程。接着介绍Glue ETL功能中可以与资料互动的工具。

Notebook:
先建立开发端点Dev endpoint,可以在左方工具栏的中下方找到
https://ithelp.ithome.com.tw/upload/images/20210927/20140161ksGYGI4wvU.jpg
建立端点後需要等待点时间
https://ithelp.ithome.com.tw/upload/images/20210927/20140161b0E5X3Hd0m.jpg
待开发端点建立好,可以到notebook分页建立互动开发环境
https://ithelp.ithome.com.tw/upload/images/20210927/20140161sPc7h0lJ5E.jpg
有两种环境可以依使用习惯选择,SageMaker是AWS的服务(後面会介绍),而SageMaker notebook使用上和jupyter notebook 几乎一样。

另一个新功能是Glue Studio:
Glue Studio与 notebook的差别是,Glue Studio提供更高阶的图形化界面让,使用者能用点选的方式就建立资料处理程序码。
Glue工具栏点选後点选後会转跳到Glue Studio专属页面
https://ithelp.ithome.com.tw/upload/images/20210927/20140161fPeNqvazoV.jpg

从左方工具来点选至Jobs分页即可建立新的处理任务
https://ithelp.ithome.com.tw/upload/images/20210927/20140161UktmCm8uVB.jpg
就会进入图形化开发平台
https://ithelp.ithome.com.tw/upload/images/20210927/20140161eIA7YCEezf.jpg
在中央画布上方的工具列中点选source,选取资料源
https://ithelp.ithome.com.tw/upload/images/20210927/201401618YvVJqH4Ia.jpg
多资料源可以直接新增
https://ithelp.ithome.com.tw/upload/images/20210927/201401618HHZ0UtQTM.jpg
点选Trainsform新增处理流程,可以调整这两份资料要如何交集
https://ithelp.ithome.com.tw/upload/images/20210927/20140161ci8OSNmMOk.jpg

设定合并条件/合并栏位
https://ithelp.ithome.com.tw/upload/images/20210927/20140161GKEQs9lKV0.png

新增mapping处理程序,可以在这个节点设定资料格式或拿掉不要的栏位
https://ithelp.ithome.com.tw/upload/images/20210927/20140161hG53sgeYyQ.jpg
https://ithelp.ithome.com.tw/upload/images/20210927/20140161lww1ajVSyQ.jpg

设定储存目的地
https://ithelp.ithome.com.tw/upload/images/20210927/20140161c65XXsnykK.jpg
https://ithelp.ithome.com.tw/upload/images/20210927/201401616cWA5VVRRN.jpg

在Script分页可以看到刚刚点选的流程安排所对应的程序码,右上方可以点选save
https://ithelp.ithome.com.tw/upload/images/20210927/20140161nMc5iF0sba.jpg

利用视觉化工具将处理逻辑整理成程序码,可以节省时间也减少一些不必要的输入错误。


<<:  入门魔法 - 常用阵列方法(二)find、findIndex

>>:  .obj 之绘制 & Skybox

【Day 01】- 前言: 从 0 开始的网路爬虫

前言 近年人工智慧与大数据十分热门,其背後需要许多有效的资料,先不论 Data Tagging 的部...

[Day20] placeholder for d10

写在前面 placeholder for d10 placeholder for d10 place...

Day 22 - Spring Boot & Interceptor

Interceptor 拦截器 在许多的Java Web 框架都有实现Interceptor 的方法...

[Raspberry Pi] VNC远端

开启Terminal 安装VNC server [tightvncserver] sudo apt-...

[Day 25] Leetcode 287. Find the Duplicate Number (C++)

前言 今天先暂停一下sum的题目,来做top 100 liked的另外一题─287. Find th...