Day 5 Capsule的应用(上)

前言

由於前几天讲了capsule network，attention的笔记我还在制作，因此先来讲讲capsule的应用，这个应用是在CVPR上的一篇论文
Visual-textual Capsule Routing for Text-based Video Segmentation

介绍

这篇论文的主要目的是角色及动作的影像切割技术，这是什麽意思呢?
就是将一个影片和一段自然语言的句子当作输入，目标输出是句子描述的角色像素级别的位置

K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.

那甚麽是像素级别的位置?
图中有三个描述

穿着黑色套装的男人站在後面
这只狗在参加敏捷比赛
穿着白色上衣的人跟着狗一起跑

一般的标注会是使用边界，像是上图的方式，但像素级别的标注，会像是这样

这种标注的应用可以用在很多地方

视讯检索
人机互动
监视系统

架构

从整体来说，对於给定的影片，我们的目标是去圈出文字描述的角色和动作。

简单的看本文的架构，先从文本和影片提取胶囊网路
使用视觉-文本路由演算法(Visual-Textual Capsule Routing)来创建更高级别的胶囊
并且用这个胶囊进一步定位选择的演员和动作。

Visual-Textual Capsule Routing

$V_{sj}$ 是一个句子相关的vote，是基於pose matrix Ms和 $T_{sj}$ 是指句子的Transformation matrices 相乘
W和H是指当侦的宽度与长度
$V_{vj}$ 是一个句子相关的vote，是基於pose matrix $M_v[x,y]$ 和Tvj是指句子的Transformation matrices 相乘
$A_s$ 和 $a_v[x,y]$ 则是句子和影像的激活值
{}则是这两个值得联集
最後将联集後的vote和激活值丢进EM Routing中
就可以得到 $c_j[x,y]$
整张影像都处理完後就会得到完整的 $c_j$