DAY27 深度学习-卷积神经网路-Yolo v2 (一)

今天的主题是Yolo v2，不过所找到的资料图片可能比较不好理解，有更好的再更新，Yolo v2就是v1的升级版，v2的改变如下:

Batch Normalization(BN) : 在卷积层中添加了Batch Normalization，BN已经成为一些模型中的标准配备，由於BN可以控制输入的平均值以及方差在一定范围内，并提高了模型的训练速度。
Convolutional With Anchor Boxes : 首先原本v1的输入图像是448x448，v2则改成416x416，因为v2希望卷积特徵图输出是奇数乘以奇数，这样才会产生一个center cell，由於大的物体通常是在图片中央，便可以只用这一个center cell预测，而416x416的图像会输出成13x13的特徵图。

v2引用了Faster R-CNN中的Anchor Box，并将v1中的全连接层移除(如上图所示)，由於是卷积的型态，使特徵图保留了位置讯息，在v1中，将图像分成7x7的区域，并且每个格子中预测2个物件框，而v2每格预测5个物件框。
Dimension Clusters : 在Faster R-CNN中，Anchor Box的大小和比例是事先设定的，并在训练过程中调整，在Yolo v2中，则利用了k-means演算法得到Anchor Box的大小比例。
Direct Location Prediction : 而在v2中所预测的物件框也和v1不太相同，如下图所示:

v2预测出t~x~，t~y~，t~w~，t~h~，还有一个不在图中的t~o~，并利用预测出的结果，经过计算，再生成物件框，t~x~、t~y~为相对该格左上角的x，y，另外b~x~、b~y~为预测之物件框的中心座标，b~w~、b~h~为预测之物件框的长宽(蓝色部分皆为计算出的物件框)，并且透过$\sigma$来限制t~x~和t~y~，使得模型较为稳定，t~o~则可以想成是v1中的置信度。