知识蒸馏:channel wise知识蒸馏CWD

发布时间:2023年12月19日

在这里插入图片描述
论文:https://arxiv.org/pdf/2011.13256.pdf

1. 摘要

知识蒸馏用于训练紧凑型(轻量)模型被证明是一种简单、高效的方法, 轻量的学生网络通过教师网络的知识迁移来实现监督学习。大部分的KD方法都是通过algin学生网络和教师网络的归一化的feature map, 最小化feature map上的激活值的差异。与以往的方法不同,本文提出了将每个通道的特征图归一化来得到软化的概率图。通过简单地最小化两个网络的通道概率图之间的Kullback-Leibler (KL)散度,蒸馏过程更关注每个通道最显著的区域,这对于密集预测任务很有价值。本文对几个密集预测任务进行了实验,包括语义分割目标检测。 实验表明,本文提出的方法比现有的蒸馏方法性能好得多,并且在训练过程中需要更少的计算代价。 特别地,在COCO数据集上对MAP中的RetinaNet检测器(resnet50主干)获得了3.4%的性能提升,在Cityscapes数据集上, 针对mIoU指标,PSPNET(resnet-18 backbone)获得5.81%的性能提升。

文章来源:https://blog.csdn.net/weixin_38346042/article/details/135005359
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。