GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT模型生成文本序列是通过预测下一个 token 的方式来实现。目前预训练模型的格局,OpenAI独占鳌头,Google 和 Meta 跟随其后,仍有一定距离。大模型的训练基本都遵循分阶段训练过程。
先用大规模语料对模型进行预训练,训练处基模型
<|endoftext|>
来对不同的文档进行分隔。<|endoftext|>
是模型在训练期间看到的文档分隔符。以莎士比亚的作品数据集训练过程为例,模型刚开始训练,参数是随机初始化的,预测结果也是完全随机的。但是随着训练的不断迭代,观察迭代250次,500次,5000次,30000次的模型生成文本在不断收敛,达到一定程度后,模型就能生成连贯一致的文本序列。
训练分为两个主要阶段,预训练阶段是基于大量无标注的数据集,生成的基模型学习强大的通用表达特征。微调阶段,在基模型基础上,根据感兴趣的领域,用少量标注数据集训练。分阶段训练能极大降低微调需要的数据量。
对话模型需要对人类的指令或问题进行回复,但预训练的基模型只是完成文档文本,无法直接回答问题。
但是可以通过生成文档的提示,来引导预训练的基模型的生成文档文本,然后把生成文档文本组装成对话,上面的方法来使得预训练模型做对话模型。
OpenAI 的 ChatGPT 实现方案
觉得有用 收藏 收藏 收藏
点个赞 点个赞 点个赞
End
GPT专栏文章:
GPT实战系列-Baichuan2等大模型的计算精度与量化-CSDN博客
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF-CSDN博客
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案
决策引擎专栏:
Falcon构建轻量级的REST API服务