如果有疑惑说:资料湖与资料仓储该如何选择呢?
其实它们并不冲突。
因为存放的资料不同,可以做的分析也不同,所以资料湖更像是资料仓储的延伸,感谢分析技术的进步,现在可以利用许多新的框架来分析更多之前所无法触及的半结构与非结构化资料,丰富了资料生态。资料湖与资料仓储之间比较像是彼此补充了各自所看不到的资讯,让资料分析人员可以有更多元的资讯产生不一样的洞见。
也因为这样的分析趋势,才会有像Redshift Spectrum这类的功能推出。除此之外,AWS更提出了一个完整的解决方案架构(如下图)称为 — Lake House*。就像是形容紧邻着湖边的仓库,这个架构整合了 AWS S3 与 Amazon Redshift中的资料,并将资料储存与资料处理系统解耦,让资料能更保有它的准确性。
简单介绍由下至上依序分为五层:
原始资料产生後进入 撷取层→储存层→目录层→处理层→消费层 最後产生的分析结果
从这个架构一层层来认识各种服务也是个了解云端平台的好方法,也推荐给不同学习习惯的人。
其中的服务之後也多数会谈到。
除了目前为止提到的资料湖data lake、资料仓储data warehouse等大容量解决方案,当然相对较小容量的资料库也是重要的储存系统。资料库Database仍然是许多网页或应用程序背後蒐集资料最典型与常见的串接架构。AWS上有提供各种资料库供使用者灵活选择,它们的不同主要是因为各自适用的资料结构不同。接下来几天会介绍这些资料结构与它们的资料库。
*Lake House+图片来源( https://aws.amazon.com/tw/blogs/big-data/build-a-lake-house-architecture-on-aws/ )
>>: [机派X] Day 7 - 啊我就怕 Nvidia 显卡驱动装不起来啊
上一篇文章我们成功在Visual Studio里新增了Echo Bot的专案 也成功在Bot Fra...
前言: 总共104天的暑假要到来~离开学日子还很遥远我们这一个世代每天都要面对如何用力痛快的 学习...
##使用BigO来衡量程序码的时间复杂度(time complexity)是很重要的一件事情,接下来...
范例程序主要来自於W3Schools。 模组 建立模组:新增一个.py档,使用欲使用的模组名称命名(...
WebRTC 全名 Web Real-Time Communication,是一个支援网页浏览器进行...