Day 25 大数据下的三兄弟-从Kinesis到EMR与Redshift

承接昨天提到的Kinesis巨量资料传递,我们今天继续延伸巨量资料传递後的处理与储存。

1. Kinesis、EMR与Redshift的应用价值

Kinesis用於巨量与即时资料接收与传递;EMR(Elastic Map Reduce)用於处理巨量资料的运算;Redshift用於资料仓储。整合Kinesis、EMR与Redshift这三项服务,有助於建置一套完善的巨量资料串接、资料处理以及资料仓储的架构

2. 应用架构

昨天提到了Kinesis,今天来了解一下Kinesis如何连结EMR和Redshift,依此做资料的处理和储存。

2.1 EMR (Elastic Map Reduce)

回顾一下昨天的架构图,Kinesis接收到流量後,会交由Consumer去处理,这边的Consumer除了EC2以外,也可以是EMR。EMR本身可以理解为一系列的EC2的丛集,其底层架构设计是Hadoop,用於巨量资料的处理。由於EMR底层是由EC2所组成,当有需要调整系统的设置时,可以透过SSH方式,连线进入EMR。

2.2 Redshift

Redshift是column-based的资料库,适用於PB等级的结构化资料,进行各样的分析与查询。目前提供两种类型的机器服务:

  • Dense Compute: 强调运算的服务,适合有资料分析方面的需求者。
  • Desnse Storage: 强调储存的服务,适合有资料仓储需求者。
    如下图,Redshift可以承接来自EMR处理过後的资料,并将资料提供给BI(Business Intelligence)服务平台,如Power BI。

<<:  [Day 26] 交叉验证 K-Fold Cross-Validation

>>:  LeetCode 双刀流:70. Climbing Stairs

[FLM] 比较5.19 / 5.20 / 6.00 三者不同处

延续 https://ithelp.ithome.com.tw/articles/10261533...

Day28-Alpine.js vs Vue.js浅谈(5)

今天要来看Alpine.js和Vue.js的回圈, 两者也是非常非常像, 在Alpine.js中使用...

DAY29 - 为你的side project 写个 readme

基本上 side project 所有的工作在这边告一段落,现在要来最重要的收尾步骤,就是写 rea...

介绍Vertex(4) | ML#Day21

继训练好模型之後,这篇介绍「部署」和「预测」的使用。 Vertex提供非常无脑的一键部署方式,不需要...

[Day 27]从零开始学习 JS 的连续-30 Days---BOM-浏览器物件模型(上)

BOM ( Browser Object Model ) 浏览器物件模型(上) 常听到 JavaSc...