Distilling the Knowledge in a Neural Network 中文版 (含： bibtex格式的引用)

发布时间：2023年12月19日

bibtex格式的引用

@article{hinton2015distilling,
  title={Distilling the knowledge in a neural network},
  author={Hinton, Geoffrey and Vinyals, Oriol and Dean, Jeff},
  journal={arXiv preprint arXiv:1503.02531},
  year={2015}
}

摘要

提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型，然后平均它们的预测结果。不幸的是，使用整个集成模型进行预测很麻烦，并且可能计算成本太高，无法部署给大量用户，特别是如果单个模型是大型神经网络。Caruana和他的合作者[1]已经证明，可以将集成中的知识压缩到一个更容易部署的单个模型中，我们使用不同的压缩技术进一步开发了这种方法。我们在MNIST上取得了一些令人惊讶的结果，我们表明，通过将集成模型中的知识提取到一个单个模型中，我们可以显著改善一个使用频繁的商业系统的声学模型。我们还引入了一种由一个或多个完整模型和许多专家模型组成的新型集成，这些专家模型学习区分完整模型混淆的细粒度类。与专家混合不同，这些专家模型可以快速并行地训练。

1 Introduction

待更新

文章来源:https://blog.csdn.net/qq_42864343/article/details/135086827
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！