DAY27 深度学习-卷积神经网路-Yolo v2 (一)

今天的主题是Yolo v2,不过所找到的资料图片可能比较不好理解,有更好的再更新,Yolo v2就是v1的升级版,v2的改变如下:

  1. Batch Normalization(BN) : 在卷积层中添加了Batch Normalization,BN已经成为一些模型中的标准配备,由於BN可以控制输入的平均值以及方差在一定范围内,并提高了模型的训练速度。

  2. Convolutional With Anchor Boxes : 首先原本v1的输入图像是448x448,v2则改成416x416,因为v2希望卷积特徵图输出是奇数乘以奇数,这样才会产生一个center cell,由於大的物体通常是在图片中央,便可以只用这一个center cell预测,而416x416的图像会输出成13x13的特徵图。

    v2引用了Faster R-CNN中的Anchor Box,并将v1中的全连接层移除(如上图所示),由於是卷积的型态,使特徵图保留了位置讯息,在v1中,将图像分成7x7的区域,并且每个格子中预测2个物件框,而v2每格预测5个物件框。

  3. Dimension Clusters : 在Faster R-CNN中,Anchor Box的大小和比例是事先设定的,并在训练过程中调整,在Yolo v2中,则利用了k-means演算法得到Anchor Box的大小比例。

  4. Direct Location Prediction : 而在v2中所预测的物件框也和v1不太相同,如下图所示:

    v2预测出t~x~,t~y~,t~w~,t~h~,还有一个不在图中的t~o~,并利用预测出的结果,经过计算,再生成物件框,t~x~、t~y~为相对该格左上角的x,y,另外b~x~、b~y~为预测之物件框的中心座标,b~w~、b~h~为预测之物件框的长宽(蓝色部分皆为计算出的物件框),并且透过$\sigma$来限制t~x~和t~y~,使得模型较为稳定,t~o~则可以想成是v1中的置信度。


<<:  Lektion 29. 反身动词・反身代名词 Reflexiv Verb und Reflexivpronomen

>>:  Day 28 ~ AI从入门到放弃 - 猫狗辨识之三

[DAY-11] 诚实敢言最大化 建立回馈循环

只说你敢当面对那个人说的话 越少在背後议论别人 会妨碍效率且引起负面感受的八卦就会减少 诚实就像看...

AutoCAD ActiveX #3 Draw

AddLine Creates a line passing through two points....

集各领域专家修复的两大世界遗产

2019年世界上发生两个世界遗产的火灾,一个是法国巴黎的圣母院,一个是冲绳的首里城,两者建筑的修复难...

Day 25 似 Trello 的开源看板管理工具 - Wekan

Trello 作为专业的专案管理软件,在开源的世界中也会随之诞生一些类似操作的工具。今天要简介的 W...

Android Studio - AlertDialog - 列表选单

今天想介绍其他常用的dialog和之前介绍过一般的dialog很像 只是有了一些变化 但都还蛮实用的...