前文提到的ELMo虽然解决了词嵌入多义词的问题,但存在如下缺点:
GPT-1基于上述缺点进行了改进。
提示:以下是本篇文章正文内容,下面内容可供参考
网络结构方面,GPT-1使用Transformer Decoder(不包含Encoder-Decoder Attention)代替了BiLSTM
ps:
- Decoder部分具有自回归性质,即在生成当前输出时,会考虑之前生成的所有输出。这种特性使得GPT能够在生成过程中利用上下文信息,产生连贯且上下文相关的输出。
- 虽然encoder和decoder都包含自注意力机制,但它们在任务和使用方式上存在区别。Encoder主要用于对输入序列进行编码,而decoder则用于生成序列。因此,自回归性质更强调decoder的任务和属性。
基于GPT-1的NLP任务分为两个阶段:
上图所示一目了然,可以将所有任务抽象成四种情况,所有情况都需要增加起始和结束标记token,随机初始化:
ps:自GPT-1之后,明确了这种两阶段(预训练+微调)的范式:先通过大量未标注文本训练语言模型,然后在具体任务的标注数据上微调。这种范式可以称作半监督学习。
GPT-1为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 BiLSTM 换成 Transformer 的过程中,有信息丢失。ELMo 的语言模型是双向的,可以融合上下文信息,但GPT-1只能向前看,即只能利用上文信息、不能利用下文信息。