大模型学习笔记06——模型训练
发布时间:2024年01月20日
大模型学习笔记06——模型训练
1、目标函数
三类语言模型的目标函数:
- decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
- encoder-only(BERT):计算双向上下文embedding
- encoder-decoder(T5):编码输入,解码输出
2、优化算法
- 随机梯度下降
- Adam
- AdaFactor
- 混合精度训练
- 学习率
- 初始化
注
笔记原始内容地址:添加链接描述
文章来源:https://blog.csdn.net/qq_29787929/article/details/135712041
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!