[D28] 资料增强

上一篇我们有提到 over-fitting,在进行深度学习训练时,经常需要大量的资料以确保训练时不会产生过度拟合(over-fitting)的现象,然而在现今数位时代,很难拥有足够的资料(因为要完成训练需要上万笔 data 才能有较好的结果),因此我们会采取如下的作法:

  1. Review并重新组合或调整model架构。
  2. 将资料进行正规化,如L1/L2 regularization。
  3. 使用dropout技术。
  4. 使用 Data augmentation 技术。

这边所要介绍的是 Data augmentation 资料增强!

概念

不同於 Dropout 透过丢弃一定比例的神经元以模拟不同的dataset,Data augmentation 则是从既有的 dataset 中产生更多的资料让系统去学习,说更直接一点,是创造更多的「假」资料,来弥补我们资料不足的缺憾。

虽然说是假的资料,但也是从原始资料内容修改产生的,因此Data augmentation 经过证实的确可解决资料不足的困境并提昇系统训练的准确率!

原理

一张图片经过旋转、调整大小、比例尺寸,或者改变亮度色温、翻转等处理後,我们人眼仍能辨识出来是相同的相片,但是对机器来说那可是完全不同的新图像了。
因此, Data augmentation 就是将 dataset 中已有的图片加以修改变形,创造出更多的图片来让机器学习,弥补资料量不足的困扰~

实际应用

dataset 的资讯:

  • [ ] 格式:jpeg,224 × 224 pixels
  • [ ] 相片日期:2017/04~2017/09
  • [ ] 分类:共有17种 categories,每个 category 有 70 张相片,共 1,190 张。

每张图片都分为四个区域并给予 label:由左上角座位开始顺时间方向 → 1代表有人,0代表无人,因此,这张图 label 为 1-1-0-1。

加入 data augmentation :增加一个调整曝光值的 function,让 data augmentation 能产生各种不同亮度的相片作为新图片来使用。

  • 在未使用资料增强的情况下,成绩仅为 0.69

    

  • 用资料增强後,成绩上升到 0.85,使用 Data augmentation 让成绩大幅提昇了23%!

图片来源


<<:  [Day 28] 阿嬷都看得懂的怎麽操纵 DOM

>>:  Day 28 Rails shallow nesting

[Day21]ISO 27001 附录 A.9 存取控制

这个章节的重点就是权限。 最小权限原则,全部关掉只开放给有特殊身份的授权人员。 所以稽核的重点就在於...

Day12.进入 ARM 世界: ARM Cortex-M Exception Behavior

Nested Interrupts Cortex-M3 和 NVIC 在硬体架构上支援(Nested...

Day28 :【TypeScript 学起来】React + TypeScript 实作简单 Todo App Part1

前面笔记了那麽多,终於来实作看看了~先来做个简单的 to do app,也会纪录实作上遇到的问题。...

Golang 学习笔记-- 快速上手/重点整理 - 2 - var, const

print import ("fmt") fmt.Println('hello'...

30天程序语言研究

今天是30天程序语言研究的第七天,研究的语言一样是python,今天主要学习的是while和猜数字游...