我们在看完论文之后,想要自己动手在自己家的数据集上试一试模型的效果。但是训练中有太多的超参数需要设置,而且我们的算力资源不一定会和论文作者恰好一样,故而可能设置不同的batch_size这写参数。
batch_size还是很好设置的,估计一个算力能承受的极限即可,当然最好要注意是4的倍数。
但是学习率这个参数往往让人犯了难,无从下手。我们可以借助一个公式来计算我们应该设置的学习率
学习率计算的公式如下:
lr[new]=
lr[default]*(batch_size[new]*gpu_number[new])/
(batch_size[default]*gpu_number[default])
这里带default的超参数就是论文原作者使用的超参数了。