Day 8 Self-attention(二) 如何算出input彼此是相关的?

前言

昨天讲到为什麽要使用self-attention，今天稍微来介绍一下self-attention的架构

Self-attention

昨天提到的问题，解决问题的方法就是self-attention

self-attention就是把每一个vector的input丢进self-attention中，input几个vector，就会输出几个vector，这个方法跟昨天提到的方法不同的地方是，每一个输出的vector，都是考虑到所有输入的vector

全连接层跟self-attention是可以交叠使用的，可以让self-attention处理全部的资讯，利用全连接层处理个别的资讯
那self-attention是怎麽处理全部的资讯的呢?

从这张图可以看到每一个输出的vector都是有接收到输入vector的资讯
如果只是这样不就只是一个很大的全连接层了吗?

接下来就要讲到跟全连接层不同的地方

一开始我们会根据a1这个项目来找到哪几个项目是和a1相关的，关联的程度用alpha来决定，那self-attention是怎麽算出alpha的呢?

这边有讲到两个方法做计算

将两个vector分别乘上不同的矩阵，再将相乘过後的结果做内积

第二个方法是把两个乘上矩阵後的vector相加，经过Activation Functions，再经过一层transform，最後输入alpha，但是这边只会考虑到dot-product这个方法

知道计算方法後实际的情况是怎麽样了，这部份明天再继续讲

<<: 离职倒数23天：东京女子图监

>>: 【Day6】Opcua的介绍与连线

[面试][前端]请说明你现在专案用到的前端框架

杂谈

【没钱买ps，PyQt自己写】Day 9 - 以 QLineEdit, QTextEdit, QPlainTextEdit 作为文字的输入

杂谈

[Day24] NLP会用到的模型(七)-transformer encoder

杂谈

#20 Telegram Bot Webhook 讯息收发

杂谈

Firebase来帮忙登入画面 Day 11

杂谈

day28_ARM 也想来挖矿(上)

什麽是挖矿？需要准备铁镐吗？说到挖矿，可能很多人会想到的是显卡的涨价，让大家都觉得挖矿就是用显卡来...

第 5 集：CSS 社交距离（上）

此篇会介绍 Bootstrap 常用的对齐语法注意事项以及常见问题分为上下两集。上集介绍 displ...

Day30-30天的心得与作者的心声

30天来的心得: 终於写到第30天了，其实也不是真的30天啦~ 我大概花了14天左右就把全部的文章都...

Day28 Let's ODOO: ODOO.sh

Odoo.sh是Odoo提供的付费平台，只要有DB与程序码就会帮你建立Server，也因为是由Odo...

Day7-TypeScript(TS)基础型别资料Part 2

今天要接续昨天的继续介绍基础资料型别，如下 Enum 型别 Null 型别 Undefined 型别...