网络输出显示:
训练输出显示:
上述Model Summary显示计算不同的原因共有三点:
Layers
:可以看到验证时网络层数减少了很多其中一个原因是因为使用了Fuse前向加速推理方法,将Conv和BN层融合在了一起,具体见torch_utils.py文件中的fuse_conv_and_bn函数
Parameters
:显示参数量减少原因也是使用了Fuse前向加速推理方法,将Conv和BN层融合在一起,相当于砍掉了BN层
grandients
:训练后表示gradients=0训练时所有参数都需要梯形反向传播,所以训练时grandients = parameters
验证时,由于加载的是训练好的权重文件,参数不需要更新,所以不需要求梯度,因此gradients=0