哈罗大家好~ 美好的礼拜五终於到了.... 明後天就有更多时间可以赶铁人赛了哈哈
(呜呜抱佛脚活该的我)
这几天我们会实作 -『如何启用 VPC 日志以及汇入 BI 进行分析』,Data Analytics Pipeline 如下图所示:
我们会启用 VPC Flow Log,选取完後可以直接将 Log 资料储存至 S3 中,接着使用 AWS Glue Crawler、 Glue Job 自动建立资料表、分区以及转换格式(转成 parquet ),然後透过 Athena 查询并於 QuickSight 建立视觉化图表,那就 GOGO
等候一段时间後,就可以看到我们的 VPC Log 日志档案啦~
这时候我们观察一下档案时间戳记会发现日志档案的确约 10 分钟会储存至指定的 S3 位置,接着我们观察到 VPC Log档案的副档名是 .gz 格式,gz 是一种压缩档案,我们试着把 Log 资料下载下来就会看到:此档为压缩档,并解压缩後打开此 Log 资料内容
那现在就问题来了:
故我们需要先确认 Athena 是否可以支援此格式的资料表建置及查询,我们检视索引[1]相关文件了解确认,Athena 有支援.gz 格式直接资料表建立以及查询 ~ 不用预先进行档案解压缩或转置
明天我们会继续实作 - 使用 AWS Glue Crawler 自动建立资料表让 Athena 可以透过 SQL 语法进行查询
明天见罗 : D ~
如果有任何指点与建议,也欢迎留言交流,一起漫步在 Data on AWS 中。
[1] Athena Compression Support
https://docs.aws.amazon.com/athena/latest/ug/compression-formats.html
>>: Day16-Webhook 实作(五)LINEBot 之 MessageBuilder(III)
回圈的概念是满足设定的条件後一直执行设定好的程序码,但是还是有方式可以让回圈强制跳出整个回圈或是跳出...
在产品网站上,常常会见到付费价格的页面,其实 Tailwind 也是有像 Bootstrap 一样...
复制代码保存*.sh,然后bash *.sh执行 #!/bin/bash PATH=/bin:/sb...
从地端 On-Premise的传统资讯部署,再到云端 Cloud的新形态部署模式,在这个转型过程初...
一、前言 如果你有架设过网站,就会知道架设网站并不难,重点会在於架起以後要怎麽经营。 我相信大部分...