【Day 03】 Data Analytics Pipeline 对应於 AWS 中的服务 ( 1 )

昨天我们整理出五步骤 Data Analytics Pipeline 的内容以及需要注意的细节
https://ithelp.ithome.com.tw/upload/images/20210917/20131073YUPSdMFsCX.png

今天我们会来简单介绍在 Data Analytics Pipeline 中常用的 AWS 服务有哪些:
https://ithelp.ithome.com.tw/upload/images/20210917/20131073aQFQ8byS0l.png


Data Collection Services:

  • AWS Kinesis [1]
    是一个 AWS 全托管的服务,用来蒐集、处理以及分析 streaming data,像是:影音、主机日志、IoT等即时串流资料,都可以透过 Kinesis 进行蒐集,甚至可以同步进行处理,无需等待蒐集所有的资料後再开始处理。
  • AWS Database Migration Service (DMS) [2]
    是一个AWS全托管的服务,它可以让使用者透过 AWS DMS 轻松迁移客户的关联式资料库、NoSQL 资料库至 AWS 中,DMS也支援同质迁移 (例如:Oracle 到 Oracle ),也支援不同资料库平台之间的异质迁移 (例如:Oracle 或Microsoft SQL Server 到 AWS Aurora )。
  • Amazon AppFlow [3]
    是一个全受管的服务,我们可以将客户的 Salesforce、SAP、Zendesk、Slack 、ServiceNow,以及之後实作会提到的 Google Analytics 等软件即服务 (SaaS) 相关资料透过 AppFlow 快速且安全地储存至 AWS 中,不需要花费大量时间自行撰写、维护程序码呼叫 API 来汇整资料源。

Data Processing Services:

  • AWS Lambda [4]
    是一个无服务器(serverless)的运算服务,如果资料处理的流程非常简单也可以使用 lambda,可以选择熟悉的语言(python、go、java)进行开发,减少开发时间。
    但是需要特别注意 Lambda 的硬限制(目前每次最大达15分钟的执行时间、记忆体配置:目前最大10,240 MB等),若顶到硬限制则会造成 lambda timeout/fail 的情况
  • AWS Glue [5]
    AWS Glue 也是一种无服务器(serverless)资料整合服务,若今天你需要分散式的 ETL 运算,或是较 Lambda 长时间的程序运算处理,则可以考虑使用 Glue 的 ETL 服务。
  • AWS EMR [6]
    EMR 是 AWS 提供的分散资料处理平台,不必担心基础架构布建、丛集设定、组态或调校的工作,可以快速建构 Hadoop丛集来进行资料处理。

明天会继续讨论针对 Data Analytics Pipeline on AWS - 资料储存、资料分析&视觉化服务,如果有任何指点与建议,也欢迎留言交流,一起漫步在Data on AWS中。
我们明天见:)

参考&相关来源:
[1] AWS Kinesis
https://aws.amazon.com/tw/kinesis/
[2] AWS Database Migration Service
https://aws.amazon.com/tw/dms/
[3] Amazon AppFlow
https://aws.amazon.com/tw/appflow/
[4] AWS Lambda
https://aws.amazon.com/tw/lambda/
[5] AWS Glue
https://aws.amazon.com/tw/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
[6] AWS EMR
https://aws.amazon.com/tw/emr/?nc=sn&loc=0&whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc


<<:  AI ninja project [day 17] 时间序列预测

>>:  ASP.NET MVC 从入门到放弃(Day12) -Class funtion return void 函式写法

p value到底怎麽解释

在面试的时候很常都会从基础的问题开始问起,p值就像是你吃饱了吗一样每次都会出现,今天就来讲解一下这个...

DAY 10:Two-phase Termination Pattern,我就跟你说不要乱拔电源!

什麽是 Two-phase Termination Pattern? 分两个阶段关闭 gorouti...

.Net Core Web Api_笔记14_api结合ADO.NET资料库操作part2_资料查询呈现

在上一篇辛辛苦苦地完成了专案前置准备 并写好新增功能的api呼叫(透过POST方式) 现在资料库中有...

C# 入门笔记03(封装)

变数 C# 中提供的基本值型别可以分为: 定义变数 C# 中变数定义的语法是:data_type 因...

【第二十七天 - XSS Lab(2)-5】

Q1. XSS Lab(2)-5 题目:https://alf.nu/alert1 Fruit 题目...