[Day24] NLP会用到的模型(七)-transformer encoder

一. encoder

架构如下:

encoder的动作在於对input进行编码，在一开始input会产生Q、K、V这三个矩阵，由上图可知道，他会先进行多头的self-attention得到新的一组编码，这个地方他有多做一个处理就是残差连接(Residual connection)，这边作者是用到 ResNet 的概念，能够让深度学习训练更深的网路，避免造成梯度爆炸或梯度消失，公式如下:
Residual(x) = x + Sublayer(x)

就是将经过多头 self-attention的值与原本input的值进行相加，以图示来说如下:

各位可以看上图，他有一块add&norm，add就是做上述的残差相加，norm是Layer normalization，对每一层做正规化的意思(详细部分未来再补QQ)，最後残差与正规化的公式如下:
Add & Norm(x) = LayerNorm(x + Sublayer(x))

在encoder的最後最後，会将K与V(两者长一样)传给decoder，与decoder的Q做attention，明天会再介绍decoder的部分

<<: Day 12 态度就像有感染力的病毒

>>: Day10 Html常用标签_5

[Day24] NLP会用到的模型(七)-transformer encoder

【PHP Telegram Bot】Day27 - 防雷机器人(1)：让发出去的讯息隐藏吧

Day19 该如何发问问题?

Day 18 : 模型前的资料处理 (2)

DAY28: 光速了解与操作NVM

网页图片-30天学会HTML＋CSS，制作精美网站

视觉化KBARS(5)-1分k展示

Day30 | 30天系列回顾Ｘ赛程後规划

[Day18] NLP会用到的模型(二)-GRU

[第十六天]从0开始的UnityAR手机游戏开发-如何切换场景02

[ Raspberry Pi ] Compute module 4 eMMC 烧录流程 ((CM4))