【Day 10】 讨论 Data Analytics Pipeline - Google Analytics on AWS (整体)

大家好~ /images/emoticon/emoticon06.gif /images/emoticon/emoticon06.gif /images/emoticon/emoticon06.gif
昨天我们已经成功拉取 Google Analytics 资料到 AWS,可是我们发现『抓取的 Google Analytics 档案为多行的 JSON 格式』,非常不方便使用者阅读且 Athena 也不支援此格式搜寻,让我们无法进行後续的分析处理 (直接碰壁)


故我们需要设计合适的 Data Analytics Pipeline 以便进行资料分析以及视觉化的处理,就以 Google Analytics 资料源为案例,我整理出 Data Analytics Pipeline 用到的相关 AWS 服务供大家参考:
https://ithelp.ithome.com.tw/upload/images/20210924/201310730oHaZWHad4.png

  • 首先我们透过 Data Collection services – AWS Appflow,撷取 Google Analytics 资料并将原始资料存放至 AWS 的 S3 Bucket
  • 接着我们可以透过 AWS Lambda 服务调整栏位格式、栏位名称以及 S3 资料夹阶层规划,并且将此 JSON 格式文件转换为 Apache Parquet 格式,可以大大加速查询的结果以及储存的费用
  • 并将此处理过後的档案存放在 AWS S3 Bucket
  • 最後透过 Athena 进行联合查询功能并使用 Quicksights 进行视觉化分析

现在我们已经完成 Data Collection 以及 Data Storage ( raw data )的步骤,明天我们则会讨论 Data Processing - 如何用 Lambda 进行栏位名称与格式的调整以及档案格式转换~
要开始写个程序码罗 /images/emoticon/emoticon02.gif 那就明天见:)

如果有任何指点与建议,也欢迎留言交流,一起漫步在 Data on AWS 中。


<<:  Day09 - 实作一个状态机 - 2

>>:  Day_12 有线网路应用(四)

Day 4.环境预备备(二)- Node.js

NPM (全称 Node Package Manager,即「node包管理器」),它是一个线上套件...

教练,我想打球

想要套用三井这句话,首先你不会需要会打球,但你需要一名教练。 这几年来在新创圈盛行的如Bill Ca...

Java:观念厘清(新手用)-单元运算子a++与++a的差异

本篇用记录笔者在上课时,笔记a++与++a的差异。 单看结果虽然都是一样,但是搭配其他运算及操作时,...

【Day15】电子商务与数位行销篇-网站

#odoo #开源系统 #数位赋能 #E化自主 章节介绍 在21世纪的当下,不管是购买商品、找工作,...

资安学习路上-网站常见漏洞与 Injection的爱恨情仇2

SQL injection 先来简单练习 https://www.hacksplaining.com...