大家午安~
在第 8、9 天我们完成 Data Collection 以及 Google Analytics 原始资料储存至 AWS S3 Bucket,第 11 天时我们透过 AWS Lambda 处理原始资料并将档案从 json 转换成 Parquet 格式,那接下来的这几天就正式进入资料分析以及视觉化的阶段啦~
我们现在拥有了资料,我们可以使用 AWS Athena 透过标准的 SQL 语法快速查询我们的资料,不过在查询前需要创建『资料表』,用於定义基础来源资料的结构描述(像是:有哪些栏位、栏位的格式、资料的来源位置为何等)。
创建『资料表』有多种方式,我比较常使用以下两种方式:
但不管是使用哪种方式创建『资料表』,建立的资料表设定都会储存在 AWS Glue Data Catalog,供後续查询使用。
那今天实作我们会先 demo - 『使用 Athena SQL 语法人工建立资料表』~ 那就开始吧 GO GO
注意:没有设定 S3 查询路径,Athena 会无法查询喔!!
我们需要一个资料库来存放我们的资料表或者你也可以选择 Default 的资料库,那这边我们选择创建一个新的资料库
create database appflow_data
创建完後选取此资料库
这次 DEMO 我们先使用 Athena SQL 语法人工建立『资料表』,下方语法就是我们定义资料来源、来源格式以及要创造哪些栏位以及对应格式,供大家参考
p.s 後续我们也会教学如何用 AWS Glue 自动创建资料表供大家参考~
CREATE EXTERNAL TABLE appflow_data.ga_sample (
`year` int,
`month` int,
`day` int,
`deviceCategory` string,
`pageviews` int
)
STORED AS PARQUET
LOCATION 's3://test-dorothy-ga/ga-data'
tblproperties ("parquet.compression"="SNAPPY");
确认资料表成功建立後,我们就可以透过 Athena 下 SQL 语法查询 Google Analytics 数据啦~
例如:捞取所有资料表的资料
SELECT * FROM "appflow_data"."ga_sample"
现在我们可以顺利的查询资料了~接着就是进入建立视觉化分析的阶段啦
那就先明天见啦 : D
如果有任何指点与建议,也欢迎留言交流,一起漫步在Data on AWS中。
前言 JS 30 是由加拿大的全端工程师 Wes Bos 免费提供的 JavaScript 简单应用...
变数怎麽叫 今天起两天,会介绍一下在C++里面,每一个变数的叫法规则,他们在电脑里面是怎麽样储存的。...
以前年轻时,常说我只是一颗小小的螺丝钉没什麽用处, 接着就会听到家中长一辈的人正向鼓励着说:「每一个...
统计在现代社会中是不可或缺的,而更重要的是经过统计後的分析。不论在各行各业皆需要专业且精密的统计分析...
阵列操作介绍 (上篇) 介绍四种阵列运用: map filter find findlndex 1....