接续基本元件介绍:Glue ETL功能栏中的可以建立ETL Job、Workflow和Blueprint
ETL Jobl:可以在Jobs分页中建立
有三种Job工作类别可以选择
Python Shell: 可以执行预存的Python Script,底层并不是分散式运算的计算量,算是资料量介於Lambda和分散式Spark job之间的工具选择,也适合较简单的处理流程但比起lambda它没有执行时间的限制。
Spark*: 可执行pySpark或Scala所撰写的分散式处理工作,有版本可以选择
Spark Streaming:可执行pySpark或Scala所撰写的分散式处理工作,适用针对串流资料的应用场景
设定时需要指定script的存放地与资料处理的暂存地,预设会在S3
值得一提的功能是Job bookmark,适用资料源需要更新CDC的应用场景,可以在第一步开启
设定资料源
设定建立资料架构类型
设定存放目的地
最後设定栏位的映射,如果要修改资料格式可以在这里调整或是拿掉不需要的栏位
确定後可以进入编写程序码的页面
经过刚刚的设定Glue会产出对应程序码,在左方可以看见程序码逻辑的视觉化流程
储存後可以回到Job分页中 勾选要执行的Job後点选上方Action下拉选单来查执行与查询指标
Trigger:触发器,可以让所建立的Job的排程或是让它能够被事件趋动
要设定较复杂的ETL流程可以用以下两个功能:
Workflows : 可以图形化拖拉设定自动化的ETL工作安排,方便管理有顺序性的任务集合,进而同时触发多个工作。
Blueprint:可以将参数指定给workflow与安排不同的workflow来处理类似的ETL专案。
*Spark ( https://zh.wikipedia.org/wiki/Apache_Spark )
<<: [Day 11]在你顺利的时候来一拳才是标配(前端篇)
>>: Day11. 人与人之间偶有摩擦,物体与物体之间叫做碰撞 - Collision(下)
先说甚麽是RWD响应式网页 有些人会叫他自适应网页设计、回应式网页设计、对应式网页设计 其实都一样 ...
有时候会碰到网站要放GIF动画,但GIF大小动辄几M起跳, 造成网页Loading慢、图片边缘锯齿,...
从今天开始,程序码和实作练习的部份会占比较多的部份,终於要进入实用的NodeJS网页框架-Expre...
虽然爬虫只需要使用到 URL 送 Request 就好,但我们还是需要对 API / CGI 有一些...
Youtube连结:https://bit.ly/38xDPdR 这次首次尝试以「动画」形式,来演...