昨天讲到为什麽要使用self-attention,今天稍微来介绍一下self-attention的架构
昨天提到的问题,解决问题的方法就是self-attention
self-attention就是把每一个vector的input丢进self-attention中,input几个vector,就会输出几个vector,这个方法跟昨天提到的方法不同的地方是,每一个输出的vector,都是考虑到所有输入的vector
全连接层跟self-attention是可以交叠使用的,可以让self-attention处理全部的资讯,利用全连接层处理个别的资讯
那self-attention是怎麽处理全部的资讯的呢?
从这张图可以看到每一个输出的vector都是有接收到输入vector的资讯
如果只是这样不就只是一个很大的全连接层了吗?
接下来就要讲到跟全连接层不同的地方
一开始我们会根据a1这个项目来找到哪几个项目是和a1相关的,关联的程度用alpha来决定,那self-attention是怎麽算出alpha的呢?
这边有讲到两个方法做计算
将两个vector分别乘上不同的矩阵,再将相乘过後的结果做内积
第二个方法是把两个乘上矩阵後的vector相加,经过Activation Functions,再经过一层transform,最後输入alpha,但是这边只会考虑到dot-product这个方法
知道计算方法後实际的情况是怎麽样了,这部份明天再继续讲
什麽是挖矿?需要准备铁镐吗? 说到挖矿,可能很多人会想到的是显卡的涨价,让大家都觉得挖矿就是用显卡来...
此篇会介绍 Bootstrap 常用的对齐语法注意事项以及常见问题分为上下两集。上集介绍 displ...
30天来的心得: 终於写到第30天了,其实也不是真的30天啦~ 我大概花了14天左右就把全部的文章都...
Odoo.sh是Odoo提供的付费平台,只要有DB与程序码就会帮你建立Server,也因为是由Odo...
今天要接续昨天的继续介绍基础资料型别,如下 Enum 型别 Null 型别 Undefined 型别...