DAY 8 Big Data 5Vs – Velocity(多样性) 资料结构

第二个「V」要思考的数据问题是多样性Velocity,资料的格式有千百种,从数不完的副档名就知道。软件的蓬勃发展与进步产生出了形形色色的资料,每种资料格式也都各有其特色,大致上,从资料产生时所呈现的结构,我们可以大原则将资料区分为:结构化资料、半结构资料与非结构化资料,并利用这个原则来判断适合的服务。

结构化资料:
表格资料,经过一定规则整理在一起的资料
这一定的规则称为资料架构Schema,填入的资料需要经过正规化
有「栏」跟「列」可以定位要找的东西
而表格资料通常存在在资料库中,例如:MySQL, Oracle等资料库软件

半结构化资料:
看得出来有格式的的资料,但没有表格资料严谨的填写限制
不是所有资料都有相同栏位,所以每笔资料可能各有特色,便是所谓self-describing structure
通常是以「键」与「值」对应的方式呈现,可以有索引Index来定位要找的东西
而键值资料通常存在类似XML,JSON等档案中,适用的资料库有MongoDB, Amazon DynamoDB等

非结构化资料:
简单来说,不是以上两种就是归在这类
非结构化资料如字面上的意思,资料与资料间在产生时没有一个统一的规则
举凡图片、影片、电子邮件等都归在这,可想而知有多大量
但没有规则并不代表不能被查询,现行有许多方式可以在资料产生之後将它们归档,例如帮档案加上标签tag、或是利用爬虫程序找出共同的规则再将这些规则编成目录catalog以便检索。
分析未结构化资料,有点像是要想办法用Tableau商业智慧软件去分析一堆PDF档然後出仪表板,有挑战但并不是做不到;而想这麽做时,云端分析平台就是您的好夥伴。


<<:  [ Day 05 ] JSX 语法

>>:  【Day 05】C 的资料型态(上)

Day47. 组合模式

本文同步更新於blog Composite Pattern 允许将对象组合成树形结构来表现整体/部...

威胁建模(threat modeling)的步骤

-威胁建模(来源:CSSLP CBK) 根据CSSLP CBK,可以通过以下方式进行威胁建模: 1...

万事起头难

我对VR的第一印象,就是一个人戴着罩住眼睛的头盔,手拿着摇杆的游戏。但是这个软件到底要怎麽制作,且是...

笔记-Color in Image and Video

Basics of Color Light and Spectra(光和光谱) 可见光(visibl...

Day30 ATT&CK for ICS - Inhibit Response Function(2)

T0804 Block Reporting Message 攻击者尝试阻止回报封包,这些封包内容可能...