【Day01-资料】什麽才叫做资料?不就是资料吗还有什麽差别?

在这个演算法当道的时代
每一家网路公司在想办法尽量的搜集使用者的资讯
不论是苹果限制脸书获取使用者的资料
还是Google花大笔钞票买下Safari预设搜寻引擎的位置
也难怪资料会被称作「网路上的新石油」(毕竟我们都知道石油带来的战争可不少?)

除了那些掌控海量数据的头部公司
也有越来越多的公司开始打着AI的旗号
而相关工作的薪水的近些年也跟着水涨船高

对於许多刚踏入这个领域的人们
似乎总喜欢问「我是用Python好呢还是学R好呢?」
但笔者认为在此之前一个更重要的概念是

  • 什麽才叫做资料?
  • 资料可以给出我们什麽价值
  • 不同的资料有什麽差别?

这就好比我们在打BOSS前会需要了解对应的属性
总不能带着个皮卡丘就一天到晚都只用十万伏特
那就只能遇到大岩蛇的时候就发现哎呀大意了

而资料的属性通常可以分成两个面向——类型尺度
其中类型指的是这个资料内容储存的是什麽,常见的类型有

  • 布林值:
    • 用在可以将结果二分的属性上,且理论上不会有第三种结果
    • 例如:有/无消费过的顾客、是/否满足免运的条件...
    • 上述例子刻意不用性别,是因为如果用男/女作为二分方式,则在现在社会中的第三性或其他状况就无法被归类在其中,而若是改成男性/非男性的方式将范围含盖,不过在储存过程却失去了女性与其他性别标记的资讯,因此在使用布林值的时候切记要找到两个显着不同而相反的分类会更加有利於後面的分析。
  • 数值:
    • 最常用的一种资料类型,而根据储存类型的不同又可以分成离散型连续型的数值
    • 例如:3头牛(离散型)、1.2公升的水(连续型)...
  • 向量:
    • 许多个相同类型的数值组合在一起即可称作是向量,一定程度上可以当作数学上的向量理解,但有些时候就只是单纯表示放在一起的一维数字组而已
    • 例如:地理座标、声音讯号(是的,声音其实也是一维储存的)
  • 矩阵:
    • 如果说向量是1D的数字组,那矩阵就是2D的数字组,这种资料的特点在於它数字组之间的最小单元通常会有一定的关系
    • 例如:图片
  • 文字:
    • 啊不就你现在在看的东西( ¯•ω•¯ )
    • 但文字资料我们会需要考虑最小单位应该是什麽?
      • 如果以储存角度来想,最小的单位应该是一个一个的字元,例如:a, p, p, l, e
      • 但如果以意义的角度来想,最小的单位似乎就不能再将一个单字切开来(留个思考,那中文应该如何呢?)

先写到这边,尺度部分留明天讲XD


<<:  Day 16. Hashicorp Vault: Upgrade

>>:  DAY 1 - 蜥蜴拳修士

【Docker图解教学】Kubernetes & Docker的分手肥皂剧

Youtube连结:https://bit.ly/2MbU9cR 前阵子在社群广为流传的议题「轰都...

从零开始的8-bit迷宫探险【Level 14】让主角奔跑吧!Running Sam

适应了黑森林的孤寂,山姆开始这趟旅程的目的:找寻水晶。 森林虽然漆黑,但是路还算好走,山姆的脚步也...

资安学习路上-渗透测试实务1

讲师 : 徐牧远(高二) 时间 : 19:00-21:00(授课时间共2小时) 授课内容:渗透测试...

[DAY 18] 阿豪牛车庒冰糖猪脚

阿豪牛车庒冰糖猪脚 地点:台南市新营区公园路一段218号 时间:17:00~21:00 在南部有些店...

初学者跪着学JavaScript Day5 : 资料型别:Primitive values 和 Non-primitive values

一日客家话:月饼 捏ㄅ一ㄤˇngied5biang31 今日学习 primitives 是不可变 n...