Day 28 自注意力(Self-Attention) 机制

我们昨天介绍了 Transformer 的结构，但是并没有介绍到 Transformer 内最神秘的 Self-Attention 层。究竟 Transformer 是怎麽凭藉着 Self-Attention 来对输入序列进行平行运算？又要怎麽做到解决预测结果和关键讯息的位置过於遥远的问题？

PS：接下来介绍的教材来源皆为台大李宏毅教授的网路教学，有兴趣的话可以去听详细内容，相信一定能有所收获。

介绍

由於人类语言具有前後顺序、上下文关系，对於这种时间序列的资料很常使用 RNN 进行处理，像是文章分类、语意分析...等。

但是 RNN 有个问题就是它并不容易被平行运算，假如今天我们输入一个 Sequence $a^1$ ~ $a^4$ ，而我们想算出 $b^4$ 的话，我们就必须先从 $a^1$ → $a^2$ → $a^3$ → 直到 $a^4$ ，才能把 $b^4$ 算出来

因此有人提出用 CNN 取代 RNN 的方法，一个三角形代表一个 filter，每个 filter 的输入就是 Sequence 的其中一小段，不同的 filter 对应 Sequence 中不同的部分。但是 CNN 需要叠很多层的才能涵盖句子的所有资讯，而且後来的表现也不比 RNN 佳，因此出现了Self-Attention 机制。

Self-Attention 想要做的事情就是取代 RNN 可以做的事情
它的输出/入跟 RNN 一样的，它的最大优势在於：

可以平行化运算
每一个输出的向量，都看过整个输入的序列。因此不用像 CNN 那样堆好几层。

运算过程

现在我们假设输入 $a^1$ ~ $a^4$ 四个向量，而 Self-Attention 要输出另外一排 b 向量，而每一个 b 都是考虑了所有的 a 以後才生成出来的

要算出 $b^1$ ，第一个步骤是根据 $a^1$ 找出这个 sequence 里面跟 $a^1$ 相关的其他向量，而每一个向量跟 $a^1$ 的关联的程度，我们用一个数值叫 $\alpha$ 来表示。

在这里必须先提一下 Self-Attention 机制里面有3个非常重要的值： Query, Key, Value 。分别表示用来匹配的值、被匹配的值、以及抽取出来的资讯。

至於决定两个向量之间的关联性 $\alpha$ 最常用的方法就是dot product (内积)。它就是拿两个向量作为输入，分别乘上两个不同的矩阵，左边的向量乘上 $W^q$ 矩阵、右边的向量乘上 $W^k$ 矩阵（ $W^q$ 就是 Query 矩阵，而 $W^k$ 就是 Key 矩阵，他们的值都是随机初始化後通过训练得到）

接下来得到 $q$ 跟 $k$ 这两个向量後再做内积，全部加起来以後就得到一个 scalar (纯量)，而这个纯量就是 $\alpha$ ，我们就把它当作两个向量关联的程度。

接下来我们把刚才介绍的套用在 Self-Attention 里面。

首先将 $a^1$ 与 $a^2$ $a^3$ $a^4$ 分别都去计算他们之间的关联性 $\alpha$ 。把 $a^1$ 乘上 $W^q$ 得到 $q^1$ ，再将 $a^2$ $a^3$ $a^4$ 都去乘上 $W^k$ ，再透过内积计算出 $a^1$ 跟每一个向量的关联性 $\alpha$
执行 Soft-Max 函式得到 $\alpha^{'}$
得到这个 $\alpha^{'}$ 後，我们就能根据这个 $\alpha^{'}$ 去抽取出这个 Sequence 里面重要的资讯了！

怎麽用 $\alpha^{'}$ 抽取重要的资讯呢？步骤如下：

先把 $a^1$ ~ $a^4$ 都乘上 $W^v$ 得到新的向量，分别就是用 $v^1$ 与 $v^2$ $v^3$ $v^4$ 来表示（ $W^v$ 就是 Value 矩阵）
接下来把这边的 $v^1$ ~ $v^4$ 每一个向量都去乘上 $\alpha^{'}$ 後进行相加，就可以得到输出的 $b^1$ 了。（公式写在图片右上角）

如果某一个向量它得到的分数越高，假如说 $a^1$ 跟 $a^2$ 的关联性很强、这个 $\alpha^{'}$ 得到的值很大，那我们今天在做权重总和以後得到的 $b^1$ 的值就可能会比较接近 $v^2$ 。

现在，既然我们已经知道如何计算出 $b^1$ ，那麽自然也能根据同样的方法推算出 $b^2$ 、 $b^3$ 、 $b^4$ 。至此，我们已经将 Self-Attention 的内部的计算方式讲解完毕。明天来聊聊使用了 Transformer 中 Encoder 架构的自然语言处理模型 BERT 吧！