机器视觉与影像辨识

第四个范例跟机器视觉与影像辨识有关, 我们先来了解一下什麽是机器视觉.

机器视觉

机器视觉想要做的事情是模仿人类的视觉能力, 让机器也能够了解影片或图中的内容, 例如机器能够知道影片或图片中有没有某种特定的物体.

规则式判断
机器视觉的应用很早就开始, 例如工厂将机器视觉应用在瑕疵检测, 以自动化的方式取代(或辅助)人工检测.当时的应用以规则式(rule-based)为主, 也就是必需告诉电脑如何判断不同种类的规则内容, 这样电脑在取得影像之後就能协助判断规则是否成立, 达到自动检测的效果.
以影像的实作面来说, 最常使用的是OpenCV. OpenCV是Intel所开发并开源的专案, 专门用来处理影像或图档, 例如图档的平移、旋转、水平翻转、影像缩放、裁剪、亮暗调整、影像膨胀、侵蚀与透视转换等功能.
但以规则式(rule-based)的方式执行影像处理, 只能处理规则有写到的状况, 若遇到新的状况则需要以人工的方式调整规则之後才能处理新的状况.
类神经网路
近年来, 随着机器学习在影像处理的能力有着显着的增长, 尤其是卷积神经网路(CNN)很适合处理影像领域的资料, 因此影像辨识成为机器学习很热门的领域.
在影像辨识应用中可分为下列四类
- 影像分类：单一影像识别, 例如可分辨影像里有狗或有猫
- 影像分类+定位：除了可以识别单一影像之外, 也可以标示出该影像的位置在哪里, 例如机器可以跟你说图片里有一只狗而且狗的位置在右下方.
- 物件侦测：在一张有多个物体的图片, 可以将图片中的每一物体分别区分出类别, 而且也能标示出每一物体的位置. 例如在路口的影像之中可以标示出车子在路口的哪个位置, 而且能标注这个物体是车子
- 语意切割：可以做影像内容的割切, 把该物体的位置、大小、型态描绘出来. 例如标示出路口影像的车子或行人的轮廓.
OpenCV与类神经网路的关系.
虽然OpenCV的规则式判断方法较不具弹性, 但OpenCV的强项是图档的处理. 因此现在一般在做影像处理时, 仍然会套用OpenCV的套件来处理图档, 然後再以CNN进行模型的训练, 两者是相辅相成的关系.