由於前几天讲了capsule network,attention的笔记我还在制作,因此先来讲讲capsule的应用,这个应用是在CVPR上的一篇论文
Visual-textual Capsule Routing for Text-based Video Segmentation
这篇论文的主要目的是角色及动作的影像切割技术,这是什麽意思呢?
就是将一个影片和一段自然语言的句子当作输入,目标输出是句子描述的角色像素级别的位置
K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.
那甚麽是像素级别的位置?
图中有三个描述
一般的标注会是使用边界,像是上图的方式,但像素级别的标注,会像是这样
这种标注的应用可以用在很多地方
从整体来说,对於给定的影片,我们的目标是去圈出文字描述的角色和动作。
简单的看本文的架构,先从文本和影片提取胶囊网路
使用视觉-文本路由演算法(Visual-Textual Capsule Routing)来创建更高级别的胶囊
并且用这个胶囊进一步定位选择的演员和动作。
是一个句子相关的vote,是基於pose matrix Ms和是指句子的Transformation matrices 相乘
W和H是指当侦的宽度与长度
是一个句子相关的vote,是基於pose matrix 和Tvj是指句子的Transformation matrices 相乘
和 则是句子和影像的激活值
{}则是这两个值得联集
最後将联集後的vote和激活值丢进EM Routing中
就可以得到
整张影像都处理完後就会得到完整的
<<: Day05 测试写起乃 - Shoulda Matchers
>>: [想试试看JavaScript ] 运算子与自动转型
第一部分(建立档案以及设定资料库) composer create-project laravel/...
在了解 JavaScript 如何运行前,首先要先知道,我们所撰写的 JavaScript 是无法直...
前言 Injection +1 ↑ 正文 概念 LDAP全称Lightweight Director...
重新整理一下思路 我们使用jsonp的方式来避过CORS,载入资源 一般jsonp会在data外包...
「鲑鱼均,因为一场鲑鱼之乱被主管称为鲑鱼世代,广义来说以年龄和脸蛋分类的话这应该算是一种 KNN 的...