DAY28 深度学习-卷积神经网路-Yolo v2 (二)

今天接着DAY 27下去讲，

Darknet-19 : 在Day 27的模型图是Yolo v1的模型图，并非v2的，v2采用了叫Darknet-19的模型，模型架构如下:

模型中包含19个卷积层，和5个Max Pooling层，卷积多为3x3，而Max Pooling为2x2，而原本v1中有24个卷积层，2个全连接层，因此计算量减少，使用了GAP(Global Average Pooling)来代替全连接层，并且也用到了Batch Normalization(BN)来稳定、加速模型。
Fine-Grained Features : 假如v2的输入图片大小为416x416，最後会输出13x13的特徵图，在检测大物件的时候没有甚麽问题，但是对一些小物件的特徵会淡化(不明显)，所以使用先前较为详细的特徵图来预测小物件，在v2中称为passthrough，利用了26x26的特徵图(最後一层Max Pooling的输入)，和後面13x13x1024的特徵图连接，可是原本是26x26没法直接连接到13x13，所以会先经过以下处理，
每次提取2x2并分别分配到4个区块，当输入是26x26x512时，输出则为13x13x2048，这样便可做连接，变成13x13x3072，并且用此特徵图做预测。
Multi-Scale Training : Yolo在v2时将全连接层移除，所以输入的图像不会受其限制，但由於模型步长为32，所以输入图像的长宽为32的倍数(320、352、...、608)，最小输入为320x320，输出是10x10，最大为608x608，输出是19x19，并且在前一天有提到，v2希望输出是奇数，所以输入会再做限制。
不过以上这些不是Multi-Scale Training :D，Multi-Scale Training是指v2在每10个epoch会随机选择一种输入的图片大小，所以v2尽管对不同大小的图片，都会有不错的预测结果。

以上这些便是Yolo v2相对於v1主要改变的地方，这些技巧或是方法很多都是从其他的CNN模型中拿来做使用，最後让v2不仅计算量比v1少，也提升了模型的准确率。