DAY 14 Big Data 5Vs – Variety(速度) Glue(2) ETL

接续基本元件介绍:Glue ETL功能栏中的可以建立ETL Job、Workflow和Blueprint

ETL Jobl:可以在Jobs分页中建立
https://ithelp.ithome.com.tw/upload/images/20210926/20140161IpK6rtta5p.jpg

有三种Job工作类别可以选择
Python Shell: 可以执行预存的Python Script,底层并不是分散式运算的计算量,算是资料量介於Lambda和分散式Spark job之间的工具选择,也适合较简单的处理流程但比起lambda它没有执行时间的限制。
Spark*: 可执行pySpark或Scala所撰写的分散式处理工作,有版本可以选择
Spark Streaming:可执行pySpark或Scala所撰写的分散式处理工作,适用针对串流资料的应用场景
https://ithelp.ithome.com.tw/upload/images/20210926/20140161jDm3AE2YZf.jpg
设定时需要指定script的存放地与资料处理的暂存地,预设会在S3

https://ithelp.ithome.com.tw/upload/images/20210926/20140161C9zj7Lh2CE.jpg
值得一提的功能是Job bookmark,适用资料源需要更新CDC的应用场景,可以在第一步开启

设定资料源
https://ithelp.ithome.com.tw/upload/images/20210926/20140161ge5J6xdtWK.jpg

设定建立资料架构类型
https://ithelp.ithome.com.tw/upload/images/20210926/20140161vV5mkx4Df5.jpg

设定存放目的地
https://ithelp.ithome.com.tw/upload/images/20210926/20140161aw4iEvINAI.jpg
https://ithelp.ithome.com.tw/upload/images/20210926/20140161gZ4MxJaRUf.jpg

最後设定栏位的映射,如果要修改资料格式可以在这里调整或是拿掉不需要的栏位
https://ithelp.ithome.com.tw/upload/images/20210926/20140161YT1fOqCoUD.jpg

确定後可以进入编写程序码的页面
经过刚刚的设定Glue会产出对应程序码,在左方可以看见程序码逻辑的视觉化流程
https://ithelp.ithome.com.tw/upload/images/20210926/201401611WJkfVIhwv.jpg
储存後可以回到Job分页中 勾选要执行的Job後点选上方Action下拉选单来查执行与查询指标
https://ithelp.ithome.com.tw/upload/images/20210926/20140161WEOiVrmjNV.jpg

Trigger:触发器,可以让所建立的Job的排程或是让它能够被事件趋动
https://ithelp.ithome.com.tw/upload/images/20210926/201401610BZ5XhZM8e.jpg

要设定较复杂的ETL流程可以用以下两个功能:

Workflows : 可以图形化拖拉设定自动化的ETL工作安排,方便管理有顺序性的任务集合,进而同时触发多个工作。
https://ithelp.ithome.com.tw/upload/images/20210926/2014016178UhAepsCT.jpg

Blueprint:可以将参数指定给workflow与安排不同的workflow来处理类似的ETL专案。

*Spark ( https://zh.wikipedia.org/wiki/Apache_Spark )


<<:  [Day 11]在你顺利的时候来一拳才是标配(前端篇)

>>:  Day11. 人与人之间偶有摩擦,物体与物体之间叫做碰撞 - Collision(下)

DAY26-ASP.NET 加入RWD响应式网页 事前准备(先了解rwd)

先说甚麽是RWD响应式网页 有些人会叫他自适应网页设计、回应式网页设计、对应式网页设计 其实都一样 ...

#22-掰惹Gif!用Sprite雪碧图做动画! (CSS & Canvas)

有时候会碰到网站要放GIF动画,但GIF大小动辄几M起跳, 造成网页Loading慢、图片边缘锯齿,...

Day16 NodeJS-Express I

从今天开始,程序码和实作练习的部份会占比较多的部份,终於要进入实用的NodeJS网页框架-Expre...

[Python 爬虫这样学,一定是大拇指拉!] DAY16 - 从爬虫看 API / CGI

虽然爬虫只需要使用到 URL 送 Request 就好,但我们还是需要对 API / CGI 有一些...

【图解演算法教学】Bubble Sort 的大队接力赛

Youtube连结:https://bit.ly/38xDPdR 这次首次尝试以「动画」形式,来演...