论文:https://arxiv.org/pdf/2011.13256.pdf
知识蒸馏
用于训练紧凑型(轻量)模型被证明是一种简单、高效
的方法,轻量的学生网络通过教师网络的知识迁移来实现监督学习
。大部分的KD方法都是通过algin学生网络和教师网络的归一化的feature map, 最小化feature map上的激活值的差异。与以往的方法不同,本文提出了将每个通道的特征图归一化来得到软化的概率图
。通过简单地最小化
两个网络的通道概率图之间的Kullback-Leibler (KL)
散度,蒸馏过程更关注每个通道最显著的区域,这对于密集预测任务很有价值。本文对几个密集预测任务进行了实验,包括语义分割
和目标检测
。 实验表明,本文提出的方法比现有的蒸馏方法性能好得多,并且在训练过程中需要更少的计算代价。 特别地,在COCO数据集上对MAP中的RetinaNet
检测器(resnet50主干)获得了3.4%
的性能提升,在Cityscapes
数据集上, 针对mIoU指标,PSPNET(resnet-18 backbone)获得5.81%的性能提升。