DAY28 深度学习-卷积神经网路-Yolo v2 (二)

今天接着DAY 27下去讲,

  1. Darknet-19 : 在Day 27的模型图是Yolo v1的模型图,并非v2的,v2采用了叫Darknet-19的模型,模型架构如下:

    模型中包含19个卷积层,和5个Max Pooling层,卷积多为3x3,而Max Pooling为2x2,而原本v1中有24个卷积层,2个全连接层,因此计算量减少,使用了GAP(Global Average Pooling)来代替全连接层,并且也用到了Batch Normalization(BN)来稳定、加速模型。

  2. Fine-Grained Features : 假如v2的输入图片大小为416x416,最後会输出13x13的特徵图,在检测大物件的时候没有甚麽问题,但是对一些小物件的特徵会淡化(不明显),所以使用先前较为详细的特徵图来预测小物件,在v2中称为passthrough,利用了26x26的特徵图(最後一层Max Pooling的输入),和後面13x13x1024的特徵图连接,可是原本是26x26没法直接连接到13x13,所以会先经过以下处理,
    每次提取2x2并分别分配到4个区块,当输入是26x26x512时,输出则为13x13x2048,这样便可做连接,变成13x13x3072,并且用此特徵图做预测。

  3. Multi-Scale Training : Yolo在v2时将全连接层移除,所以输入的图像不会受其限制,但由於模型步长为32,所以输入图像的长宽为32的倍数(320、352、...、608),最小输入为320x320,输出是10x10,最大为608x608,输出是19x19,并且在前一天有提到,v2希望输出是奇数,所以输入会再做限制。
    不过以上这些不是Multi-Scale Training :D,Multi-Scale Training是指v2在每10个epoch会随机选择一种输入的图片大小,所以v2尽管对不同大小的图片,都会有不错的预测结果。

    以上这些便是Yolo v2相对於v1主要改变的地方,这些技巧或是方法很多都是从其他的CNN模型中拿来做使用,最後让v2不仅计算量比v1少,也提升了模型的准确率。

资料来源:https://blog.csdn.net/l7H9JA4/article/details/79955903


<<:  Day24 - 关於共识演算法与容错机制

>>:  IOS-30Day To ALL

Day 21 - [语料库模型] 09-回馈机制

聊天机器人虽有问答集可以回覆大部分常见问题,但难免会有疏漏。因此本研究亦设计回馈机制,若使用者发现机...

CSS就可以!animation 与他的好夥伴 @keyframes

如果说HTML是网页开发的第一堂课,CSS差不多就会再第二堂课出现了,好消息是,只要用第二堂学到的语...

Day 10 CSS <元素显示模式>

1. 什麽是元素显示模式 元素显示模式就是元素(标签)以什麽方式进行显示 作用 : 网页的标签非常多...

[Python]如何Text to Speech: pyttsx3, gTTS

https://pythonprogramminglanguage.com/text-to-spee...

电子书阅读器上的浏览器 [Day16] 网页汇出成 epub 档案 (II)

在前一篇提到,可以利用 epublib 将网页内容储存成 epub 档案,便於事後用其他的阅读软件中...