DAY 20 Big Data 5Vs – Variety(速度) EMR (2)

EMR的分散式运算与分散式储存适用是批量处理的应用场景,它也和Glue一样有提供互动式分析介面:EMR Notebook 与 EMR Studio,供开发与测试使用。目前官方推荐使用EMR Studio而非 Notebook 但两者目前都还有支援,因为EMR Studio可以更好的做权限控管与保障资料的安全。

EMR Notebook
https://ithelp.ithome.com.tw/upload/images/20211002/20140161i974xgkU5R.jpg

EMR Studio
注意要预先设定VPC网路环境与适当的IAM Role方便建立时直接选取
https://ithelp.ithome.com.tw/upload/images/20211002/20140161c94IXtZrGZ.jpg
https://ithelp.ithome.com.tw/upload/images/20211002/20140161J2twymjoyG.jpg

另外要提的特色,是EMR中的档案系统—EMRFS:
Hadoop内建使用HDFS档案系统,搭配YARN做资源管理。在EMR上的Hadoop执行环境在地端建立的一样,在程序码执行时会先从资料源拉取要运算的资料到slave node,在执行完成後也会需要一段时间才会归还资源。而EMR自己的档案系统EMRFS可以在资料源是S3时使用,直接把S3中的bucket视为同一个档案系统中,直接在接收到任务时节省拉取资料的时间,更有效率的执行工作任务。

目前为止都是介绍在考量「速度」需求时会用上的运算服务:Lambda、Glue、EMR,目前介绍的功能也都以这些服务中的「批量处理」应用为主,单次处理的资料量相对较大,延迟可能几分钟至数小时。当然这三个服务中也都可以执行「串流处理」任务,比如说在Glue和EMR上建置Spark Streaming、Flink等应用程序。

但在AWS上有另一个针对「串流处理」所设计的服务供使用者选择,那就是Amazon Kinesis。


<<:  Day 17 : 笔记篇 04 — 写笔记就像是在种树,在 Obsidian 中实作 Evergreen Note (长青笔记) 的概念

>>:  找LeetCode上简单的题目来撑过30天啦(DAY17)

css margin

今天来说如何设定区块间的距离,需要用到margin这个语法 先创造出两个黑色方块与一个粉色方块来观察...

强型闯入DenoLand[35] - 完赛心得

强型闯入DenoLand[35] - 完赛心得 年度回顾 今年对笔者我来说是相当特别的一年,从升上...

Day1 写程序的前置工作!

安装环境第一步骤 App Store 搜寻Xcode并下载 下载後并创立一个专案 进入後系统帮我们预...

DAY20 图片处理套件-OpenCV

昨天我们介绍了深度学习的概念和应用,今天来介绍一下图片的处理,前一章我们有提到,一张图片对於神经网路...

MySQL 字串类型资料之基本操作

VARCHAR & CHAR VARCHAR(0-65535)/CHAR(0-255)差别於...