DAY 17 Big Data 5Vs – Variety(速度) Glue Data Brew

目前为止Glue的三个工具,可以依使用者的开发习惯与技术背景来选用,而AWS是以客户为导向的公司,对於越来越多跨领域的人才都要希望能够善加应用手中资料的需求下,AWS也应运而生了另一个服务—Glue Data Brew,让使用者只要带着资料来,就可以在不需要编撰任何程序码的情况下,利用AWS积年累月资料经验所提供建立的250个内建ETL范本,将资料清洗成符合自己使用需求的资料集,方便接下来的分析与机器学习建模使用。
https://ithelp.ithome.com.tw/upload/images/20210929/20140161qaS5MXyvYO.jpg
基本元件介绍:
Project专案:进入服务业面可以在右方先建立专案,建立时选定Dataset,选择Recipe
https://ithelp.ithome.com.tw/upload/images/20210929/20140161bIQkIXSdkR.jpg
或是直接选择建立内建的范本专案
https://ithelp.ithome.com.tw/upload/images/20210929/201401618GwVUrLY1A.jpg
记得选用的role需要拥有相关资源的权限(例如S3)
https://ithelp.ithome.com.tw/upload/images/20210929/201401613Jgs4Sde6P.jpg

Dataset:与data catalog一样并没有实际存有资料本身,而是记录着metadata
https://ithelp.ithome.com.tw/upload/images/20210929/20140161NV9pYngS4i.jpg
也可以从本地上传

Recipe:是一步步资料处理流程的集合,如果不使用范本也可以上传自己编写的版本,或是修改范本让资料能清洗成更符合自己所需的样子。注意上传档案须是JSON档。
Job:Recipe的执行实例,可以按需执行
https://ithelp.ithome.com.tw/upload/images/20210929/20140161zhJyPTudau.jpg

两个值得一提的功能是:
Data lineage:视觉化呈现资料流,可以追踪资料处理的状态进度
Data profile:提供基本资料轮廓的叙述统计资讯,类似pandas的describe功能

花了许多篇幅介绍资料处理工具,因为资料清洗是个非常关键却又耗时的过程,资料清洗的程度与否直接影响着分析结果,所以常常是一个资料分析系统中的痛点,不只是Glue Data Brew,市面上也有许多其它为了解决这个问题而产生的工具,例如Informatica、Tableau Prep等

但Glue所适用的资料量大约1TB左右,如果要处理更大量(可能10TB以上)的资料,就需要另一个更强壮的服务 — Amazon EMR。明天做介绍。


<<:  Day 0x1C UVa10420 List of Conquests

>>:  Windows Server 2019 如何安装 Mail Server,使用 hMailServer 来管理收发信

Day 3 - 稳若泰山

简介 今天我想要介绍一下关於C++的一些基本文法,还有一些我学到的写程序时须注意的小撇步。做为一个初...

Youtube Data API 教学 - 抓取你的金钥 API key

「鲑鱼均,因为一场鲑鱼之乱被主管称为鲑鱼世代,广义来说以年龄和脸蛋分类的话这应该算是一种 KNN 的...

[NestJS 带你飞!] DAY04 - Controller (下)

主体资料 (Body) 在传输资料时经常会使用到主体资料,比如说:POST、PUT、PATCH等操作...

Day 13 - 半自动标签图片的方法与实作

Day 13 - 半自动标签图片的方法与实作 以下介绍一个自制的简易的半自动标签图片的作法,主要是因...

全端入门Day29_後端程序撰写之一点点的Golang

昨天解释了Golang的hello world,今天要用Go来做一个localhost。 Golan...