【KD】知识蒸馏(knowledge distillation)简单介绍

发布时间:2024年01月06日

最近学到了知识蒸馏的相关知识,来简单总结一下?? ?? ? ????。


?知识蒸馏?

?????? 知识蒸馏,是一种模型压缩的手段。通过训练学生模仿教师的行为,将嵌入在大的教师模型中的知识迁移到小的学生模型。

例如,TinyBERT(Jiao et al.,2020)通过在通用领域的大规模语料库上执行通用的蒸馏,首次得到了一个通用的蒸馏小模型,然后在微调阶段用下游任务数据执行面向特定任务的蒸馏。DynaBERT通过从全量模型到小规模的子模型的知识蒸馏,训练了一个宽度自适应和深度自适应的BERT模型。

????????知识蒸馏也可以用于剪枝,以提高性能,例如块剪枝(Lagunas et al,2021)和CoFi(Xia et al,2022)。

知识蒸馏与迁移学习的关系

知识蒸馏中的温度设置

文章来源:https://blog.csdn.net/m0_56367027/article/details/135428246
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。