前面讲到过chatgpt的知识,提到了chatgpt的实现原理包含了transformer内容,所有非常有必要来补充一下这部分的内容。
资料:
- Attention is All You Need:Attention Is All You Need
transformer由论文《Attention is All You Need》提出,完全基于Attention mechanism,抛弃了传统的CNN和RNN。
Transformer模型使用经典的encoder-decoder架构,由encoder和decoder两部分组成。
上图左侧用Nx框出来的,就是我们encoder的一层。encoder一共有6层这样的结构。
上图右侧用Nx框出来的,就是我们decoder的一层。decoder一共有6层这样的结构。
输入序列经过word embedding和positional embedding相加后,输入到encoder中。
输出序列经过word embedding和positional embedding相加后,输入到decoder中。
最后,decoder输出的结果,经过一个线性层,然后计算softmax。