随着数位时代的来临,企业内数据皆已指数级增长,而多数企业也加快数位转型脚步并推动『以数据驱动的决策模式』,希望从大量的资料中找出有意义的资讯,协助企业做出对应的营运策略[1][2];不知道大家有没有听过 DIKW 金字塔[3],它是一个在知识管理领域常被广泛使用的知识分类方法(图一),透过金字塔(data> information> knowledge> wisdom),我们也可以了解到蒐集资料以及将资料转换成资讯、知识、智慧对於企业营运策略的重要性。
图一、 DIKW 金字塔[3]
故参考 AWS 官方文件提出资料生命周期的流程[4]以及自己一些个人经验,我整理出以下 Data Analytics Pipeline,让我们可以透过 Data Pipeline 从大量的资料中找出有意义的资讯:
这个步骤主要用意就是:将资料从外部来源移动至另一个储存位置,以便後续进行资料处理及分析
在这个阶段我们要特别考量以下几点并挑选出合适的方法/对应的 AWS 服务:
原始资料暂存区,供後续其他数据团队进行分析使用,像是:AWS S3、Aurora、RDS、DynamoDB 等,在这个阶段可以考量以下几点并挑选出合适的 AWS 服务:
适当的资料处理有助於进行後续的资料分析,像是:减少多余栏位、调整栏位格式、合并资料源或者转换档案的格式等等,在 AWS 则可以使用 AWS Glue、Lambda、EMR 来进行资料处理
在这个阶段可以考量以下几点并挑选出合适的 ETL 工具:
已处理的资料暂存区,像是:AWS S3、Aurora、RDS、DynamoDB 等
依据使用者需求进行资料分析以及视觉化
介绍完 Data Analytics Pipeline,後续实作我们也会以此 Pipeline 流程分析讨论我们要用那些工具,明天则会先继续介绍『 Pipeline 对应於 AWS 服务』的统整,如果有任何指点与建议,也欢迎留言交流,一起漫步在 Data on AWS中。
我们明天见:)
参考&相关来源:
[1] 看数据说话 企业数据驱动的第一步
https://www.watchinese.com/article/2020/24838
[2] 数据驱动行销
https://www.ainotam.com/what-is-data-driven-marketing/
[3] DIKW模型
https://www.gushiciku.cn/pl/p8hT/zh-tw
[4] Data Lifecycle and Analytics in the AWS Cloud
https://pages.awscloud.com/rs/112-TZM-766/images/Data_Lifecycle_and_Analytics_Reference_Guide.pdf
<<: 在 WordPress 每页文章底下自动附加 FB 粉丝页或社团连结
出於书本 Chapter 7. Passwords 第十天了,可喜可贺可喜可贺 写在前面 密码破解,...
前言 函式用於结构化程序,将需要重复用到的功能独立出来,透过函式的呼叫,传入资料与回传处理後的资料。...
Hello 大家, 没有连假就要撑五天才可以放假呜呜, 撑得下去的... 接续着昨天继续介绍, 第一...
感谢大家花宝贵的时间阅读这系列的文章,由於篇幅有限,其实还有很多主题无法尽录,不过希望阅读过後,大...
前言 因为本身是以 MAC 在开发程序,所以本篇文章是以安装 Go 的环境在 macOS 为主,那如...