[D21] 物件侦测(2)

经过上一篇物件侦测(1)的介绍，我们终於可以正式进入更完整的影像侦测小世界了！

之前说过物件侦测有的两大主要的步骤：影像分类（Image classification）和物件定位（Object Localization），又有两大类：One stage 和 Two stage。

早期演算法以 Two stage 为大宗，代表演算法有 R-CNN、 Fast-RCNN 和 Faster RCNN。

这篇文章会先介绍 R-CNN 和 Fast-RCNN！

R-CNN
R-CNN 使用 Selective Search 演算法找出 2000–3000 个 region proposal，将取出的 region proposal 压缩成一样大小之後再丢入 CNN 撷取特徵，最後对 feature map 利用 SVM 加以分类，并对 bounding box 做线性回归，得到结果。

SVM：一种二元分类模型。在二维中，可以将其视为一条线，并假设我们的所有输入点都可以被这条线完全分开。

Fast-RCNN
Fast-RCNN 是由 R-CNN 改良，改善了　R-CNN　每个区域都要放入CNN　提取特徵，导致有很多重复运算的部分非常花时间 → Fast-RCNN　只对影像做一次　feature 的撷取。

Fast-RCNN 的不同之处是拿掉 SVM 结构，改以 softmax 作为分类方法和采用了 Fully Convolutional Networks（FCN），一般的CNN 最後一层都是使用全连接层来获得分类预测机率 → FCN 将最後一层全连接层替换为卷积层。
接着将 ROI 投射到 Feature Map 上，再做 ROI Pooling。

softmax：输出的每个值表示这个样本属於每个类的概率，且输出的向量值范围为 0 到 1。

ROI Pooling：就是对每个 Region proposal 做 pooling，得到的 ROI 都会有自己的座标和大小。

那为甚麽这里要使用　ROI Pooling　呢？
原因是 ROI Pooling Layer 之後的　Fully Connected Layer　的输入是固定尺寸，所以需要通过 ROI Pooling 将所有的 ROI 变成固定大小。

　　　未完待续

杂谈

杂谈

杂谈

杂谈

杂谈

------------- 告诫某天公司电脑以为发文完成就关机，结果中断铁人赛---------...

题号：7 标题；Reverse Integer 难度：Medium Given a signed 3...

在图卡的练习中，我们学会了视觉层次的设计。在演讲的呈现中，我们学会了言语重点的表达。而在文章的撰...

今天一起来认识二元树的三种遍历方式吧！但是别急！我们先来认识二元搜寻树BST的定义！二元搜寻树是...

在用numpy和pandas处理资料的时候我们很常会遇到需要nan的情况而最初在处理它的时候，就...