【小笔记】算法基础超参数调优思路

发布时间：2024年01月17日

【学而不思则罔，思维不学则怠】
9.29
在这里插入图片描述
本文总结一下常见的一些超参数调优思路

Batch_size

2023.9.29

简单来说，较大的bz可以加快训练速度，特别是基于GPU进行模型训练时，应该在显存允许范围内，尽量使用较大的bz。
两个极端：假设内存/显存足够大，每次都是使用全量数据进行梯度计算，此时训练效率最高，但训练极容易陷入鞍点（局部最优）而无法跳出，表现出来就是loss还比较高，但是已经开始收敛了。
但bz不是说越大越好，越大bz意味着用更多的数据来计算梯度，越容易陷入鞍点，但若batch数量较多，则当一个batch的数据使算法陷入鞍点了，另一个batch的数据有机会使算法跳出鞍点。
因此bz尽可能选大一些，同时保证batch数量不太少，最简单的方法就是从GPU显存或CPU内存运行的最大值开始实验，若发现出现了loss过早收敛且比较高时（陷入鞍点），此时则放弃充分利用GPU，而应考虑减少bz，使loss能够继续下降。
结论：从显存/内容利用率角度和防止陷入鞍点两个角度来思考bz。

学习率

2024.1.16

lr若太大，则会导致训练波动，不容易收敛，表现出来就是算法的loss在下降一段时间后，又突然增加，然后又下降，然后有增加，就像乒乓球落地上，弹弹弹。loss曲线并不光滑，如锯齿版的下降。甚至始终无法收敛。
lr若太小，最大的问题就是需要更长的时间来进行收敛。
对lr的设置除了经验值外，就是观看loss收敛情况。

epochs

2024.1.16

它就很简单了，先推荐设置一个较大的值，然后观察能收敛的epoch即可

dropout

待添加

文章来源:https://blog.csdn.net/xiangxiang613/article/details/133417459
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！