前面介绍的方法是one head的方法,这边要来讲multi-head
在某些情况下,multi-head的结果可能会比one head来的好,例如说翻译
这边来介绍multi-head的计算方法
将原先的q、k、v分别乘上两个不同的矩阵,会得到qi,1,qi,2
k跟v也做一样的操作
会得到下面的图
另外一个input也做相同的操作
再来我们对1的部分做weight sum,会得到bi,1
再来我们对2的部分做weight sum,会得到bi,2
最後将结果再经过一个transform,得到bi後,就会在送入下一层
这就是multi-head的计算过程
<<: display : Inline、Block、Inline-Block
>>: Day4-基本功时间-好做先做!SampleCode解析
本文同步刊登於个人技术部落格,有兴趣关注更多 Kubernetes、DevOps 相关资源的读者,请...
今天要针对Routes和Middleware的部份进一步了解Express框架。 Express中的...
什麽是 Wavelength? Wavelength 将 5G 网路的高频宽和超低延迟与 AWS 运...
在上篇有透过psycopg2对PostgreSQL进行一连串的操作,在透过psycopg2人工创建资...
小七离开便利商店後,店员『太子』走了过来... 「Allen 我觉得你走到那,都有灾难。」 我看了看...