DAY 13 Big Data 5Vs – Variety(速度) Glue(1) Crawler

轻巧有弹性的Lambda能解决转档、压缩等简单的处理运算,然而在AWS上如果要建立基本完整的ETL流程更适合的服务是AWS Glue。Glue是个无服务器的资料整合服务,它提供分散式的 ETL 运算,且设计有相较於直接编写程序码更直觉的视觉化编写介面让使用者可以有效率的将自己的处理逻辑转换成对应程序码来执行资料整合工作。

Glue的常见的处理流程大概是:
建立Crawler爬虫程序/编目程序来抓资料同时辨识资料格式,并替从资料源抓取下的资料建立记录metadata 中继资料的Data Catalog目录以利之後查询使用。这个流程可以随需执行,也可以将其自动化方便管理大规模的资料整合工作。

Glue的基本元件有:

Classifier:分类器,可以选用预设资料格式(Grok/XML/JSON/CSV),功能是在爬取时判断档案是否是能处理的格式
https://ithelp.ithome.com.tw/upload/images/20210925/20140161iXhfADMJAr.jpg

Crawler:编目程序,可以带着分类器续爬取资料源,建立虚拟资料表,资料源的中继资料存在资料库
在左方工具栏找到Crawler分页後即可建立新的编目程序
https://ithelp.ithome.com.tw/upload/images/20210925/20140161L1vLIcNYK7.jpg
设定资料源
https://ithelp.ithome.com.tw/upload/images/20210925/20140161P4HbLxolQT.jpg
在第三步指定要使用的分类器
https://ithelp.ithome.com.tw/upload/images/20210925/20140161FbNfpO6NZU.jpg
如果有多个资料源选yes
https://ithelp.ithome.com.tw/upload/images/20210925/20140161IC0lyZuM70.jpg
可以在这部直接新增的Role,或是提前先建立好拥有适当权限的Role(可至AWS IAM预建立)
https://ithelp.ithome.com.tw/upload/images/20210925/20140161n3KIeoqKVr.jpg
设定排程,测试的话就留着预设的on demand即可
https://ithelp.ithome.com.tw/upload/images/20210925/20140161zXpyGhtvAe.jpg
设定存放目的地
https://ithelp.ithome.com.tw/upload/images/20210925/201401615Ydfuz8cLC.jpg
最後可以检查所有的设定值後点选建立就完成

要执行可以回到Crawler分页,要先勾选要执行的编目程序,再点选Action後选择执行
https://ithelp.ithome.com.tw/upload/images/20210925/20140161aRSoOVeJqJ.jpg


<<:  Rust-定义函式Function(二)

>>:  心血管疾病资料集的资料清理

企划实现(29)

使用自定义的listview 第四部:创建listview的adapter package com....

字串的动次踏次,Ruby 30 天刷题修行篇第四话

大家好,这里是 A Fei,又到了我们愉快的刷题练功时间,前三天的题型和 Number、Array ...

Day 7: LeetCode 485. Max Consecutive Ones

Tag:随意刷-每月挑战(2021.09.21) Source: 485. Max Consecut...

《赖田捕手:番外篇》第 38 天:用 Netlify Functions 布署 Line Bot

《赖田捕手:番外篇》第 38 天:用 Netlify Functions 布署 Line Bot 从...

【在厨房想30天的演算法】Day 19 演算法 : 图形搜寻 graph search 广度搜寻、深度搜寻

Aloha!又是我少女人妻 Uerica!今天真是个秋高气爽的日子,下午想说跟老公去公园浪漫野餐,还...