一文读懂「Transformer」

发布时间:2024年01月08日

前面讲到过chatgpt的知识,提到了chatgpt的实现原理包含了transformer内容,所有非常有必要来补充一下这部分的内容。

资料:

  1. Attention is All You Need:Attention Is All You Need

一、什么是Transformer?

transformer由论文《Attention is All You Need》提出,完全基于Attention mechanism,抛弃了传统的CNN和RNN。

二、transformer结构

在这里插入图片描述
Transformer模型使用经典的encoder-decoder架构,由encoder和decoder两部分组成。

上图左侧用Nx框出来的,就是我们encoder的一层。encoder一共有6层这样的结构。

上图右侧用Nx框出来的,就是我们decoder的一层。decoder一共有6层这样的结构。

输入序列经过word embedding和positional embedding相加后,输入到encoder中。

输出序列经过word embedding和positional embedding相加后,输入到decoder中。

最后,decoder输出的结果,经过一个线性层,然后计算softmax。

三、

文章来源:https://blog.csdn.net/Julialove102123/article/details/135457093
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。