[D21] 物件侦测(2)

经过上一篇物件侦测(1)的介绍,我们终於可以正式进入更完整的影像侦测小世界了!

之前说过物件侦测有的两大主要的步骤:影像分类(Image classification)和物件定位(Object Localization),又有两大类:One stage 和 Two stage。

早期演算法以 Two stage 为大宗,代表演算法有 R-CNN、 Fast-RCNN 和 Faster RCNN。

这篇文章会先介绍 R-CNN 和 Fast-RCNN!

  • R-CNN
    R-CNN 使用 Selective Search 演算法找出 2000–3000 个 region proposal,将取出的 region proposal 压缩成一样大小之後再丢入 CNN 撷取特徵,最後对 feature map 利用 SVM 加以分类,并对 bounding box 做线性回归,得到结果。

SVM:一种二元分类模型。在二维中,可以将其视为一条线,并假设我们的所有输入点都可以被这条线完全分开。

 

  • Fast-RCNN
    Fast-RCNN 是由 R-CNN 改良,改善了 R-CNN 每个区域都要放入CNN 提取特徵,导致有很多重复运算的部分非常花时间 → Fast-RCNN 只对影像做一次 feature 的撷取。

    Fast-RCNN 的不同之处是拿掉 SVM 结构,改以 softmax 作为分类方法和采用了 Fully Convolutional Networks(FCN) ,一般的CNN 最後一层都是使用全连接层来获得分类预测机率 → FCN 将最後一层全连接层替换为卷积层。
    接着将 ROI 投射到 Feature Map 上,再做 ROI Pooling。

softmax: 输出的每个值表示这个样本属於每个类的概率,且输出的向量值范围为 0 到 1。

ROI Pooling:就是对每个 Region proposal 做 pooling,得到的 ROI 都会有自己的座标和大小。

那为甚麽这里要使用 ROI Pooling 呢?
原因是 ROI Pooling Layer 之後的 Fully Connected Layer 的输入是固定尺寸,所以需要通过 ROI Pooling 将所有的 ROI 变成固定大小。

   未完待续

图片来源1
图片来源2
论文


<<:  Day28-Go gRPC(上)

>>:  冒险村21 - draper

从 React 开始,让你的网页material-ui起来 [Day 1] 受众&&环境

------------- 告诫 某天公司电脑以为发文完成就关机 ,结果中断铁人赛---------...

找LeetCode上简单的题目来撑过30天啦(DAY26)

题号:7 标题;Reverse Integer 难度:Medium Given a signed 3...

切入的点好,就会好点

在图卡的练习中,我们学会了视觉层次的设计。 在演讲的呈现中,我们学会了言语重点的表达。 而在文章的撰...

Day 19:二元树遍历 Binary Tree Traversal

今天一起来认识二元树的三种遍历方式吧! 但是别急!我们先来认识二元搜寻树BST的定义! 二元搜寻树是...

【Day08-比较】我们不一样——在python中判断相等的用法is, ==, 与如何判断nan

在用numpy和pandas处理资料的时候 我们很常会遇到需要nan的情况 而最初在处理它的时候,就...