Day 12 Self-attention(六) Multi-Head Self-attention

Multi-Head Self-attention

前面介绍的方法是one head的方法，这边要来讲multi-head
在某些情况下，multi-head的结果可能会比one head来的好，例如说翻译

这边来介绍multi-head的计算方法

将原先的q、k、v分别乘上两个不同的矩阵，会得到qi,1，qi,2
k跟v也做一样的操作
会得到下面的图

另外一个input也做相同的操作

再来我们对1的部分做weight sum，会得到bi,1

再来我们对2的部分做weight sum，会得到bi,2

最後将结果再经过一个transform，得到bi後，就会在送入下一层
这就是multi-head的计算过程

<<: display : Inline、Block、Inline-Block

>>: Day4-基本功时间-好做先做!SampleCode解析

Day 03 - 动态调整的PM职涯规划(2)

杂谈

Data layer implementation (1)

杂谈

Ruby幼幼班--Best Time to Buy and Sell Stock

杂谈

Python - Python Selenium 套件使用参考笔记

杂谈

Indexed Element、请 TWGL 替程序码减肥

杂谈

Day 27 - 从零开始导入Terraform，Infrastructure as Code Terraform Atlantis

本文同步刊登於个人技术部落格，有兴趣关注更多 Kubernetes、DevOps 相关资源的读者，请...

Day17 NodeJS-Express II

今天要针对Routes和Middleware的部份进一步了解Express框架。 Express中的...

[Day29] AWS Wavelength (5G)

什麽是 Wavelength？ Wavelength 将 5G 网路的高频宽和超低延迟与 AWS 运...

DAY 14 资料库-透过pgAdmin4管理Heroku PostgreSQL

在上篇有透过psycopg2对PostgreSQL进行一连串的操作，在透过psycopg2人工创建资...

虹语岚访仲夏夜-15(打杂的Allen篇)

小七离开便利商店後，店员『太子』走了过来... 「Allen 我觉得你走到那，都有灾难。」我看了看...