【Day 02】 何谓 Data Analytics Pipeline

随着数位时代的来临,企业内数据皆已指数级增长,而多数企业也加快数位转型脚步并推动『以数据驱动的决策模式』,希望从大量的资料中找出有意义的资讯,协助企业做出对应的营运策略[1][2];不知道大家有没有听过 DIKW 金字塔[3],它是一个在知识管理领域常被广泛使用的知识分类方法(图一),透过金字塔(data> information> knowledge> wisdom),我们也可以了解到蒐集资料以及将资料转换成资讯、知识、智慧对於企业营运策略的重要性。
https://ithelp.ithome.com.tw/upload/images/20210916/20131073oZzrt7IhUN.png
图一、 DIKW 金字塔[3]

『那要怎麽建构出企业的 DIKW 架构以推动数据驱动的决策模式呢?』

故参考 AWS 官方文件提出资料生命周期的流程[4]以及自己一些个人经验,我整理出以下 Data Analytics Pipeline,让我们可以透过 Data Pipeline 从大量的资料中找出有意义的资讯:
https://ithelp.ithome.com.tw/upload/images/20210916/201310731uWcpT9HpF.png

步骤一:Data Collection 资料蒐集

这个步骤主要用意就是:将资料从外部来源移动至另一个储存位置,以便後续进行资料处理及分析
在这个阶段我们要特别考量以下几点并挑选出合适的方法/对应的 AWS 服务:

  • 原始资料来源以及格式
    不同的 Data Sources,对应使用的 AWS 服务也会有所差异
    例如:
    资料库资料迁移服务可以使用 AWS Database Migration Service 快速且安全地将资料库迁移到 AWS 中
    如果想要撷取 streaming data 则可以使用 Amazon Kinesis 服务
    如果想蒐集影音串流相关的则可以使用 Amazon Kinesis Video Streams 将影片从设备传输到 AWS
    『故不同的 Data Sources,对应使用的AWS服务也会有所不同,後续我们也会依各别实作案例来讨论应使用哪种 Data Collection tool 会较佳』
  • 抓取资料的频率
    确认欲撷取的资料频率(每日?/每小时?/即时…etc.),不同的撷取频率皆会影响储存的费用以及工具的选用
  • 资料量大小
    了解抓取资料量的大小(Mb/sec...etc.)
  • 资料变动方式
    确认 Data Sources 修改资料时的变动方式为复写?新增?

步骤二:Data Storage (Raw Data) 资料储存(原始资料)

原始资料暂存区,供後续其他数据团队进行分析使用,像是:AWS S3、Aurora、RDS、DynamoDB 等,在这个阶段可以考量以下几点并挑选出合适的 AWS 服务:

  • 资料的生命周期以及存取频率
    定义资料的生命周期,将资料的创造、抓取、保留、备份、到销毁的整个过程都能加以管理,并根据资料的存取频繁度或新旧,将资料搬移到合适的储存服务中,以大幅减省储存费用的支出

步骤三:Data Processing 资料处理

适当的资料处理有助於进行後续的资料分析,像是:减少多余栏位、调整栏位格式、合并资料源或者转换档案的格式等等,在 AWS 则可以使用 AWS Glue、Lambda、EMR 来进行资料处理
在这个阶段可以考量以下几点并挑选出合适的 ETL 工具:

  • 资料处理的复杂性以及所耗的时间
  • 资料处理的资料量多寡以及频率

步骤四:Data Storage (Processed Data) 资料储存(已处理的资料)

已处理的资料暂存区,像是:AWS S3、Aurora、RDS、DynamoDB 等

步骤五:Data Analytics & Visualization 资料分析&视觉化

依据使用者需求进行资料分析以及视觉化

  • 欲呈现的视觉化内容

介绍完 Data Analytics Pipeline,後续实作我们也会以此 Pipeline 流程分析讨论我们要用那些工具,明天则会先继续介绍『 Pipeline 对应於 AWS 服务』的统整,如果有任何指点与建议,也欢迎留言交流,一起漫步在 Data on AWS中。

我们明天见:)

参考&相关来源:
[1] 看数据说话 企业数据驱动的第一步
https://www.watchinese.com/article/2020/24838
[2] 数据驱动行销
https://www.ainotam.com/what-is-data-driven-marketing/
[3] DIKW模型
https://www.gushiciku.cn/pl/p8hT/zh-tw
[4] Data Lifecycle and Analytics in the AWS Cloud
https://pages.awscloud.com/rs/112-TZM-766/images/Data_Lifecycle_and_Analytics_Reference_Guide.pdf


<<:  在 WordPress 每页文章底下自动附加 FB 粉丝页或社团连结

>>:  Day-01 深度学习是什麽?

Day 10 - 密码破解 101

出於书本 Chapter 7. Passwords 第十天了,可喜可贺可喜可贺 写在前面 密码破解,...

【Day 16】Function 函式(续)

前言 函式用於结构化程序,将需要重复用到的功能独立出来,透过函式的呼叫,传入资料与回传处理後的资料。...

Day12 iPhone捷径-媒体Part2

Hello 大家, 没有连假就要撑五天才可以放假呜呜, 撑得下去的... 接续着昨天继续介绍, 第一...

29 | WordPress 区块编辑器 | 本次教学单元总结:

感谢大家花宝贵的时间阅读这系列的文章,由於篇幅有限,其实还有很多主题无法尽录,不过希望阅读过後,大...

Day3-golang 环境建设(macOS)

前言 因为本身是以 MAC 在开发程序,所以本篇文章是以安装 Go 的环境在 macOS 为主,那如...