Transformer and Pretrain Language Models3-2

发布时间：2024年01月21日

transformer structure注意力机制的各种变体

第二种变体：

如果两个向量的维度不一样，我们就需要在中间加上一个权重矩阵，来实现他们之间的相乘，然后最后得到一个标量

第三种变体：

additive attention

它和前面的有一个比较大的不同，它使用了一层的前馈神经网络，来将两个向量变成一个标量，来得到注意力分数

在这个变体中，w1、w2和v，分别是两个权重矩阵和一个权重向量；tanh是一个激活函数。这样的话最后也可以得到一个标量，作为前面的注意力分数

此外还有许多其他的变体，可执行查找了解。

文章来源:https://blog.csdn.net/weixin_58810992/article/details/135731783
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！