首先先把a1乘上Wq,就会得到q1,q的意思是query,也就是查询的意思
a2乘上Wk,会得到k2,这个k就是key的意思
将这两个值做内积之後会得到alpha1,2,就可以知道这两个vector之间的相关联性,这个关联性也有一个称号,叫做attention score
a3跟a4也做跟a2一样的事情,就分别算出alpha1,3,alpha1,4这两个相关联性
另外a1也会跟自己计算相关联性,得到alpha1,1
那这边我们在使用softmax来计算a'1,1,a'1,2,a'1,3,a'1,4
在经过前人很多尝试之後,像是relu之类的,发现softmax的效果最好
根据这个alpha,我们已经知道那些向量是跟a1最有关系的,接下来我们要根据这个attention的分数来抽取资讯
将a1,a2,a3,a4分别乘上Wv,会得到v1,v2,v3,v4
接着将v1,v2,v3,v4分别乘上a'1,1,a'1,2,a'1,3,a'1,4,再将这些值加起来,就会得到b1,只要哪一个alpha的权重比较大,最後得到b1的之後就会比较接近那一个值
所以这边就讲了要怎麽用一整个sequence,得到b1
<<: 我们的基因体时代-AI, Data和生物资讯 Day09-合成生物学与机器学习
>>: 离职倒数22天:透过工作,容易看到自己不想面对的缺点
27. Remove Element 今天我们一起挑战leetcode第27题Remove Elem...
学习进度 设计模式 迭代器模式 观察者模式 Android Studio SQLite Room 心...
此篇会教学如何将 Bootstrap container 容器,自干一个出来。 若是使用 Wrap...
前篇几篇(需求管理、产品设计)终於介绍完,产品从最原始的需求转变成产品方案的演进史,接着就要来分享这...
ScriptTagHelper (脚本标签帮助程序):是针对HTML原生<script> tag的...