大模型介绍2:核心技术(未完待续)

发布时间:2024年01月23日
Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范 式。
预训练语言模型采用“预训练 + 微调”方法,主要分为两步:
1) 将模型在大规模无标注数据上进行自监督训练得到预训练模型,
2) 将模型在下游各种自然语言处理任务上的小规模有标注数据进行微 调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激 发了语言大模型( Large Language Model, LLM )研究热潮。

Transformer 架构

Transformer 架构 [13] 是目前语言大模型采用的主流架构 [5],其基 自注意力机制(Self-attention Mechanism)模型。
其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。
文章来源:https://blog.csdn.net/hzp666/article/details/135766631
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。