Day 5 Capsule的应用(上)

前言

由於前几天讲了capsule network,attention的笔记我还在制作,因此先来讲讲capsule的应用,这个应用是在CVPR上的一篇论文
Visual-textual Capsule Routing for Text-based Video Segmentation

介绍

这篇论文的主要目的是角色及动作的影像切割技术,这是什麽意思呢?
就是将一个影片和一段自然语言的句子当作输入,目标输出是句子描述的角色像素级别的位置

K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.

那甚麽是像素级别的位置?
图中有三个描述

  1. 穿着黑色套装的男人站在後面
  2. 这只狗在参加敏捷比赛
  3. 穿着白色上衣的人跟着狗一起跑

一般的标注会是使用边界,像是上图的方式,但像素级别的标注,会像是这样

这种标注的应用可以用在很多地方

  1. 视讯检索
  2. 人机互动
  3. 监视系统

架构


从整体来说,对於给定的影片,我们的目标是去圈出文字描述的角色和动作。

简单的看本文的架构,先从文本和影片提取胶囊网路
使用视觉-文本路由演算法(Visual-Textual Capsule Routing)来创建更高级别的胶囊
并且用这个胶囊进一步定位选择的演员和动作。

Visual-Textual Capsule Routing

https://chart.googleapis.com/chart?cht=tx&chl=V_%7Bsj%7D是一个句子相关的vote,是基於pose matrix Ms和https://chart.googleapis.com/chart?cht=tx&chl=T_%7Bsj%7D是指句子的Transformation matrices 相乘
W和H是指当侦的宽度与长度
https://chart.googleapis.com/chart?cht=tx&chl=V_%7Bvj%7D是一个句子相关的vote,是基於pose matrix https://chart.googleapis.com/chart?cht=tx&chl=M_v%5Bx%2Cy%5D和Tvj是指句子的Transformation matrices 相乘
https://chart.googleapis.com/chart?cht=tx&chl=A_shttps://chart.googleapis.com/chart?cht=tx&chl=a_v%5Bx%2Cy%5D则是句子和影像的激活值
{}则是这两个值得联集
最後将联集後的vote和激活值丢进EM Routing中
就可以得到https://chart.googleapis.com/chart?cht=tx&chl=c_j%5Bx%2Cy%5D
整张影像都处理完後就会得到完整的https://chart.googleapis.com/chart?cht=tx&chl=c_j


<<:  Day05 测试写起乃 - Shoulda Matchers

>>:  [想试试看JavaScript ] 运算子与自动转型

Laravel8_多重身份验证(第一部分)

第一部分(建立档案以及设定资料库) composer create-project laravel/...

[Day 1] JavaScript 的运行

在了解 JavaScript 如何运行前,首先要先知道,我们所撰写的 JavaScript 是无法直...

[Day14] LDAP Injection

前言 Injection +1 ↑ 正文 概念 LDAP全称Lightweight Director...

[Day 25] - React + Tailwind CSS + DasyUI

重新整理一下思路 我们使用jsonp的方式来避过CORS,载入资源 一般jsonp会在data外包...

Youtube Data API 教学 - 有字幕好安心 Captions.list

「鲑鱼均,因为一场鲑鱼之乱被主管称为鲑鱼世代,广义来说以年龄和脸蛋分类的话这应该算是一种 KNN 的...