Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范 式。
预训练语言模型采用“预训练
+
微调”方法,主要分为两步:
1) 将模型在大规模无标注数据上进行自监督训练得到预训练模型,
2) 将模型在下游各种自然语言处理任务上的小规模有标注数据进行微 调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激 发了语言大模型(
Large Language Model, LLM
)研究热潮。
Transformer 架构
Transformer
架构
[13]
是目前语言大模型采用的主流架构
[5],其基 自注意力机制(Self-attention Mechanism)模型。
其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。