[D28] 资料增强

上一篇我们有提到 over-fitting，在进行深度学习训练时，经常需要大量的资料以确保训练时不会产生过度拟合（over-fitting）的现象，然而在现今数位时代，很难拥有足够的资料（因为要完成训练需要上万笔 data 才能有较好的结果），因此我们会采取如下的作法：

Review并重新组合或调整model架构。
将资料进行正规化，如L1/L2 regularization。
使用dropout技术。
使用 Data augmentation 技术。

这边所要介绍的是 Data augmentation 资料增强！

概念

不同於 Dropout 透过丢弃一定比例的神经元以模拟不同的dataset，Data augmentation 则是从既有的 dataset 中产生更多的资料让系统去学习，说更直接一点，是创造更多的「假」资料，来弥补我们资料不足的缺憾。

虽然说是假的资料，但也是从原始资料内容修改产生的，因此Data augmentation 经过证实的确可解决资料不足的困境并提昇系统训练的准确率！

原理

一张图片经过旋转、调整大小、比例尺寸，或者改变亮度色温、翻转等处理後，我们人眼仍能辨识出来是相同的相片，但是对机器来说那可是完全不同的新图像了。
因此， Data augmentation 就是将 dataset 中已有的图片加以修改变形，创造出更多的图片来让机器学习，弥补资料量不足的困扰～

实际应用

dataset 的资讯：

[ ] 格式：jpeg，224 × 224 pixels
[ ] 相片日期：2017／04～2017／09
[ ] 分类：共有17种 categories，每个 category 有 70 张相片，共 1,190 张。

每张图片都分为四个区域并给予 label：由左上角座位开始顺时间方向 → 1代表有人，0代表无人，因此，这张图 label 为 1-1-0-1。

加入 data augmentation ：增加一个调整曝光值的 function，让 data augmentation 能产生各种不同亮度的相片作为新图片来使用。

在未使用资料增强的情况下，成绩仅为 0.69

用资料增强後，成绩上升到 0.85，使用 Data augmentation 让成绩大幅提昇了23%！

图片来源

<<: [Day 28] 阿嬷都看得懂的怎麽操纵 DOM

>>: Day 28 Rails shallow nesting

[D28] 资料增强

概念

原理

实际应用

其他名词解释 | ML#Day23

[day7]呼叫永丰API及流程串接整理

Day 4. 今天要干嘛？

Day11 网页排版好朋友 - Flexbox

[Day01]我要成为稽核大师

[Day21]ISO 27001 附录 A.9 存取控制

Day12.进入 ARM 世界： ARM Cortex－M Exception Behavior

Day28 :【TypeScript 学起来】React + TypeScript 实作简单 Todo App Part1

Golang 学习笔记-- 快速上手/重点整理 - 2 - var, const

30天程序语言研究