Day 12 Self-attention(六) Multi-Head Self-attention

Multi-Head Self-attention

前面介绍的方法是one head的方法,这边要来讲multi-head
在某些情况下,multi-head的结果可能会比one head来的好,例如说翻译

这边来介绍multi-head的计算方法

将原先的q、k、v分别乘上两个不同的矩阵,会得到qi,1,qi,2
k跟v也做一样的操作
会得到下面的图

另外一个input也做相同的操作

再来我们对1的部分做weight sum,会得到bi,1

再来我们对2的部分做weight sum,会得到bi,2

最後将结果再经过一个transform,得到bi後,就会在送入下一层
这就是multi-head的计算过程


<<:  display : Inline、Block、Inline-Block

>>:  Day4-基本功时间-好做先做!SampleCode解析

Day 27 - 从零开始导入Terraform,Infrastructure as Code Terraform Atlantis

本文同步刊登於个人技术部落格,有兴趣关注更多 Kubernetes、DevOps 相关资源的读者,请...

Day17 NodeJS-Express II

今天要针对Routes和Middleware的部份进一步了解Express框架。 Express中的...

[Day29] AWS Wavelength (5G)

什麽是 Wavelength? Wavelength 将 5G 网路的高频宽和超低延迟与 AWS 运...

DAY 14 资料库-透过pgAdmin4管理Heroku PostgreSQL

在上篇有透过psycopg2对PostgreSQL进行一连串的操作,在透过psycopg2人工创建资...

虹语岚访仲夏夜-15(打杂的Allen篇)

小七离开便利商店後,店员『太子』走了过来... 「Allen 我觉得你走到那,都有灾难。」 我看了看...