Transformer and Pretrain Language Models3-3

发布时间:2024年01月22日

insights of attention注意力机制的特点

我们引入的attention机制到底给端到端的模型带来了什么变化?

1、信息瓶颈问题:注意力机制的出发点首先就是为了解决信息瓶颈问题而存在的,这样我们通过注意力机制decoder端在每次生成的时候,都可以直接关注到encoder端所有位置的信息,信息瓶颈的问题就可以有效地解决了

2、注意力机制同样很有效地缓解了RNN中的梯度消失的问题,它通过在encoder和decoder之间提供了一种直接连接方式,防止了梯度在RNN中会传播过长,进而导致梯度消失

3、注意力机制也给神经网络这样一个黑匣子的模型,提供一定的可解释性,我们通过将decoder端每次的注意力分布可视化,我们可以画出右边这样的一个图,黑色表示注意力分数比较低,越接近白色,表示这个值越高。我们可以看到对于前面机器翻译的这样一个任务,注意力机制其实实现了一种短软对齐的策略,它翻译得到的英文单词会更加关注和表示相同含义的中文单词,比如这里的many更多和airport机场,这样的一个可视化,我们也可以发现模型在一定程度上,学习到这两个语言中一种语义的对齐关系,所以总体来看,注意力机制给RNN带来了很多有益的改变,而且极大地提高了RNN在不同的NLP任务上的表现

文章来源:https://blog.csdn.net/weixin_58810992/article/details/135732051
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。