Pytorch采坑记录：DDP 损失和精度比 DP 差，多卡GPU比单卡GPU效果差

发布时间：2023年12月21日

结论：调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置：：1GPU：学习率=0.1，batch_size=64
如果8GPU还按之前1GPU配置：8GPU：学习率=0.1，batch_size=64

那么此时对于8GPU而言，效果几乎等于：：1GPU：学习率=0.1，batch_size=64 * 8=512

这种8GPU情况下，batch_size等效变大，效果就差了，参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU：学习率=0.1 * 8=0.8，batch_size=64
或者调小batch_size 8GPU：学习率=0.1，batch_size=8

文章来源:https://blog.csdn.net/weixin_45667052/article/details/135139791
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！