Day 11 Self-attention(五) KQV矩阵整理

QKV矩阵

昨天讲到Self-attention会产生三种矩阵

  • Q(query)
  • K(keys)
  • V(values)
    并且提到这三个矩阵是利用矩阵相乘的方法得到的
    接下来要提到alpha是怎麽利用矩阵做计算的

alpha计算

由於所有的k都要跟q1做矩阵相乘,因此我们可以把k1~k4做成一个大的矩阵,再去跟q1相乘,这样就可以一次得到q1的所有alpha值

那如果我们把q1到q4都组合起来,去跟k1~k4的转置矩阵做相乘,就会得到所有需要的alpha值,再将这些值做softmax的处理,就会得到经过Activation function的矩阵

将经过Activation function的矩阵和v1~v4做相乘,就会得到我们最终要的结果,b1~b4
所以self-attention的运算基本上就是利用矩阵的计算来完成的

复习前面讲过的计算

I是input的矩阵,分别乘上Wq、Wk、Wv,得到QKV这三个矩阵

我们再把Q乘上K的转置,就会得到A这个矩阵,经过Activation Function後2的矩阵,称为Attention Matrix

将Attention Matrix跟V做相乘,就会得到O这个矩阵,O就是我们最後所需要的输出

在这一连串的计算中,只有Wq、Wk、Wv这三个矩阵是需要被训练的

今天的进度先到这边,明天会整理之前打的东西,并且将Attention的部分结束掉


<<:  【第十一天 - Two-pointer 题目分析】

>>:  那些注定要没什麽用的专案开发法

DAY12 如何使用样板

做完大概长这样,左边的图片就会是显示在line上面的样子,有兴趣可以自己摸索一下,这边还有一个重点是...

Day24 - 铁人付外挂实作付款类别(三)- 接收回传资料

完成付款请求之後,接下来是准备好接收金流商回传资讯的 Response 类别,目前外挂的资料夹结构如...

DAY12-EXCEL统计分析:卡方检定实例

卡方检定 今天来实作单一常态母体变异数检定的题目。 假如一家面包店希望生产的蛋黄酥重量的变异数维持在...

[Day6] 自我必备沟通力:Content & Context

发挥影响力 随时必备的两个元素:Content & Context 自觉、找镜子、了解与掌握...

Day29 实作todoList(四)产生事项列表

确定资料的建立後,接下来要在List元件中使用回圈渲染的事件的方式将每个新增的样式呈现在列表之中。 ...