Day 8 Self-attention(二) 如何算出input彼此是相关的?

前言

昨天讲到为什麽要使用self-attention,今天稍微来介绍一下self-attention的架构

Self-attention

昨天提到的问题,解决问题的方法就是self-attention

self-attention就是把每一个vector的input丢进self-attention中,input几个vector,就会输出几个vector,这个方法跟昨天提到的方法不同的地方是,每一个输出的vector,都是考虑到所有输入的vector


全连接层跟self-attention是可以交叠使用的,可以让self-attention处理全部的资讯,利用全连接层处理个别的资讯
那self-attention是怎麽处理全部的资讯的呢?

从这张图可以看到每一个输出的vector都是有接收到输入vector的资讯
如果只是这样不就只是一个很大的全连接层了吗?

接下来就要讲到跟全连接层不同的地方

一开始我们会根据a1这个项目来找到哪几个项目是和a1相关的,关联的程度用alpha来决定,那self-attention是怎麽算出alpha的呢?

这边有讲到两个方法做计算

将两个vector分别乘上不同的矩阵,再将相乘过後的结果做内积

第二个方法是把两个乘上矩阵後的vector相加,经过Activation Functions,再经过一层transform,最後输入alpha,但是这边只会考虑到dot-product这个方法

知道计算方法後实际的情况是怎麽样了,这部份明天再继续讲


<<:  离职倒数23天:东京女子图监

>>:  【Day6】Opcua的介绍与连线

day28_ARM 也想来挖矿(上)

什麽是挖矿?需要准备铁镐吗? 说到挖矿,可能很多人会想到的是显卡的涨价,让大家都觉得挖矿就是用显卡来...

第 5 集:CSS 社交距离(上)

此篇会介绍 Bootstrap 常用的对齐语法注意事项以及常见问题分为上下两集。上集介绍 displ...

Day30-30天的心得与作者的心声

30天来的心得: 终於写到第30天了,其实也不是真的30天啦~ 我大概花了14天左右就把全部的文章都...

Day28 Let's ODOO: ODOO.sh

Odoo.sh是Odoo提供的付费平台,只要有DB与程序码就会帮你建立Server,也因为是由Odo...

Day7-TypeScript(TS)基础型别资料Part 2

今天要接续昨天的继续介绍基础资料型别,如下 Enum 型别 Null 型别 Undefined 型别...