基于transformers,用GPU训练的显存优化方法

发布时间:2023年12月26日

声明:以下基本都是基于时间换空间的方法,微调方法用的是firefly(流萤)框架

1. 减小"per_device_train_batch_size",设置?"gradient_accumulation_steps"。这样在计算梯度的时候是每per_device_train_batch_size*gradient_accumulation_steps个样本计算一下

2.设置gradient_checkpointing,模型不缓存激活状态,会进行两次forward计算,以节省显存。

3.优化器改成Adafactor

4.对原大模型的params进行with torch.no_grad操作,不更新原来大模型的参数,只针对后处理层进行训练

5.减小语料的max length:“max_seq_length”

文章来源:https://blog.csdn.net/weixin_72100405/article/details/135223936
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。