DAY 4 Big Data 5Vs – Volume(容量) - S3+Lake Formation

S3无限制的容量与可存储任何档案类型的特性,让它常常出现在近来当红的应用场景 — 资料湖中。但单单一个很大的储存服务并不等於资料湖,还需要搭配集中管理与安全存取机制才能真正的实现,不然就会沦为大家口中的资料沼泽Data Swamp。
AWS 的Lake Formation 服务提供了完整的资料湖建置方案,它集成S3与Glue等服务,并加上了更严谨的权限管理。Lake Formation让使用者可以对的S3资料源有自己额外定义的安全政策与资料处理流程,加速资料湖的建立与资料分析的效率和品质。

一进入Lake Formation 首页,就会跳出提示,需要设定资料湖的管理员,预设是当前登入的帐号。之後也可以到左侧setting分页调整
https://ithelp.ithome.com.tw/upload/images/20210916/20140161F6Y8786erX.jpg

在DashBoard仪表板分页可以跟着指引来建立
https://ithelp.ithome.com.tw/upload/images/20210916/20140161tFbMtB4ZfS.jpg
首先,注册一个S3作为资料湖储存资料的地方。
再建立资料库供资料湖环境中存放导入资料的存取目录。
最後,建立存取资料湖的规则,权限可以细分到资料表。

功能说明:
导入资料进资料湖可以使用Blueprint,在右侧的工具栏找到,这个功能区会是集成Glue无服务器服务,点选Crawlers和Jobs都会转跳到Glue的页面,并在对应功能页之下建立Crawlers、Jobs和workflow以便选用。(Glue的相关使用之後会提)
https://ithelp.ithome.com.tw/upload/images/20210916/201401619emKqJNzXw.jpg
要用哪种Blueprint可以按照目前的使用场景来选择
https://ithelp.ithome.com.tw/upload/images/20210916/20140161srVOJA2hhm.jpg
在Blueprint中,使用者可以定义要导入的资料源data source、要做的资料处理workflow和最後输出的资料目的地data target,并将这个流程自动化。
额外提醒,在Glue的页面也有Blueprint和workflow功能页,但在Lake Formation定义的Blueprint作业并不会出现在Glue的Blueprint中可是其中的workflow在两边的分页都可以找的到。

有了资料後就可以建立权限政策,可以授权(Grant)不同角色访问资料湖中的权限。
https://ithelp.ithome.com.tw/upload/images/20210916/20140161YJRR6FFj6Q.jpg
权限的建立与角色分配,依据使用者的场景与习惯都会有所不同,
建议事前先规划好再建立可以节省时间也避免错误。


<<:  .NET Core第15天_MVC的TagHeper使用_微软Web应用框架中前端部分的演进

>>:  Day16 - Ajax 加上 Antiforgery Token (一)

从「递回」策略迁移到「堆叠」暂存

再探链结串列与树结构 在前三天的刷题实战中,我们一起实作了线性的链结串列和非线性的树相关的题目。其...

Windows Web Form(C#) import Web API

Windows Web Form(C#) import Web API     步骤一 :先新增或使...

铁人赛 Day7 -- 一定要知道的 CSS (四) -Justify-content

前言 昨天讲了 display 当中的 Flex 属性 那今天就要来讲 display 当中的 Ju...

Day3 AR其实在生活中很常见?他们又有那些好处哩(成为史莱姆猎人的萌新)

上期大略介绍了VR,知道VR是藉由装置,让使用者脱离现实,进入到虚拟的空间。这期就来介绍AR啦~~~...

Golang 学习笔记-- 快速上手/重点整理 - 2 - var, const

print import ("fmt") fmt.Println('hello'...