知识蒸馏:channel wise知识蒸馏CWD

发布时间：2023年12月19日

在这里插入图片描述
论文：https://arxiv.org/pdf/2011.13256.pdf

1. 摘要

知识蒸馏用于训练紧凑型(轻量)模型被证明是一种简单、高效的方法， 轻量的学生网络通过教师网络的知识迁移来实现监督学习。大部分的KD方法都是通过algin学生网络和教师网络的归一化的feature map, 最小化feature map上的激活值的差异。与以往的方法不同，本文提出了将每个通道的特征图归一化来得到软化的概率图。通过简单地最小化两个网络的通道概率图之间的Kullback-Leibler (KL)散度，蒸馏过程更关注每个通道最显著的区域，这对于密集预测任务很有价值。本文对几个密集预测任务进行了实验，包括语义分割和目标检测。实验表明，本文提出的方法比现有的蒸馏方法性能好得多，并且在训练过程中需要更少的计算代价。特别地，在COCO数据集上对MAP中的RetinaNet检测器(resnet50主干）获得了3.4%的性能提升，在Cityscapes数据集上, 针对mIoU指标，PSPNET(resnet-18 backbone）获得5.81%的性能提升。

文章来源:https://blog.csdn.net/weixin_38346042/article/details/135005359
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！