Day 1 为什麽要在云端平台上做数据分析?

首先对本篇主题中的一些常见名词与讨论角度做基本的定义;建立共同的出发点以利文章阅读,并直接破题回答,或许很多人看到标题会有得疑问 : 为什麽要在云端平台上做数据分析?

先说说问句中的「数据分析」:当事件被记录下来,成为可以被阅读与传播的资讯,再利用工具对它做进一步的了解,就可以产生附加价值,便完成了广义的数据分析流程。
当资料量不大时,常见的分析工具软件可以使用Excel、SAS等;当资料量大到一定程度时,变成为了近十年来当红的大数据应用场景,而这时可以选用的分析工具便见仁见智。

既然做数据分析必须要选用工具,工欲善其事;必先利其器。使用云端平台上的工具就像是租用别人的电脑,使用者可以按照自己的需求选用最适用的工具,而且很多时候还不用自己保养工具!

举例一个的使用场景:假设当使用者在建立模型时,只是单单想要加速运算,测试将演算法从的GBDT换成XGBoost後平行处理的效能,这时如果是在云端平台上,只要轻松地在图形化介面勾选设定选用不同kernel,便可以完成。不用在写程序时突然要处理环境问题,你想法到哪里,就能做到哪里!

最後,在各有特色的大云端平台供应商中,为什麽选用亚马逊的AWS呢?
如同Amazon.com上面甚麽都卖,AWS(Amazon Web Service) 也是几乎甚麽都有,单就个人经验,还不熟悉云端时,选用成熟的品牌*,在摸索出自己的使用架构前,可以降低一些不必要的转换成本(帐号、帐单等)。但反之,也正因为产品很多,所以更要先厘清自己缺甚麽,进了商店才知道要知道自己要买甚麽,也才不会买错东西。

後续的文章主要也是以这样的思路出发,先定义问题,再介绍AWS上解决问题适用的工具,让大家更容易在云端建立出自己的分析工具。

*AWS 连续11年评比为第一名的领导品牌(https://aws.amazon.com/tw/blogs/aws/aws-named-as-a-leader-for-the-11th-consecutive-year-in-2021-gartner-magic-quadrant-for-cloud-infrastructure-platform-services-cips/ )


<<:  Day 13 EventCallback, event from child to parent

>>:  各种无用的Guide与设计模式

我们的基因体时代-AI, Data和生物资讯 Day18-基因变异的档案格式VCF

上一篇我们的基因体时代-AI, Data和生物资讯 Day17-分析定序档案格式SAM, BAM的工...

Spring Framework X Kotlin Day 23 Integration Test

GitHub Repo https://github.com/b2etw/Spring-Kotlin...

Day23 jQuery 基本教学(三)

Method 操作方法 在熟悉 selector 後,就可以开始采用物件连结的方式进行各种作业 最基...

用自己方式存在的工程师 - TonyQ [下]

Bernard:很多人可能知道,你其实没有传统的学历。台湾企业对於这种非传统背景的求职者,算是友善吗...

Day 12 - PHP SDK: 建立信用卡、虚拟帐号订单

昨天发布了 Sinopac PHP SDK,接着来有几天的篇幅会介绍如何使用。今天先来谈谈建立订单的...