EMR的分散式运算与分散式储存适用是批量处理的应用场景,它也和Glue一样有提供互动式分析介面:EMR Notebook 与 EMR Studio,供开发与测试使用。目前官方推荐使用EMR Studio而非 Notebook 但两者目前都还有支援,因为EMR Studio可以更好的做权限控管与保障资料的安全。
EMR Notebook
EMR Studio
注意要预先设定VPC网路环境与适当的IAM Role方便建立时直接选取
另外要提的特色,是EMR中的档案系统—EMRFS:
Hadoop内建使用HDFS档案系统,搭配YARN做资源管理。在EMR上的Hadoop执行环境在地端建立的一样,在程序码执行时会先从资料源拉取要运算的资料到slave node,在执行完成後也会需要一段时间才会归还资源。而EMR自己的档案系统EMRFS可以在资料源是S3时使用,直接把S3中的bucket视为同一个档案系统中,直接在接收到任务时节省拉取资料的时间,更有效率的执行工作任务。
目前为止都是介绍在考量「速度」需求时会用上的运算服务:Lambda、Glue、EMR,目前介绍的功能也都以这些服务中的「批量处理」应用为主,单次处理的资料量相对较大,延迟可能几分钟至数小时。当然这三个服务中也都可以执行「串流处理」任务,比如说在Glue和EMR上建置Spark Streaming、Flink等应用程序。
但在AWS上有另一个针对「串流处理」所设计的服务供使用者选择,那就是Amazon Kinesis。
<<: Day 17 : 笔记篇 04 — 写笔记就像是在种树,在 Obsidian 中实作 Evergreen Note (长青笔记) 的概念
>>: 找LeetCode上简单的题目来撑过30天啦(DAY17)
今天来说如何设定区块间的距离,需要用到margin这个语法 先创造出两个黑色方块与一个粉色方块来观察...
强型闯入DenoLand[35] - 完赛心得 年度回顾 今年对笔者我来说是相当特别的一年,从升上...
安装环境第一步骤 App Store 搜寻Xcode并下载 下载後并创立一个专案 进入後系统帮我们预...
昨天我们介绍了深度学习的概念和应用,今天来介绍一下图片的处理,前一章我们有提到,一张图片对於神经网路...
VARCHAR & CHAR VARCHAR(0-65535)/CHAR(0-255)差别於...