交叉熵损失（Cross Entropy Loss）学习笔记

发布时间：2023年12月22日

??在分类任务中，我们通常使用交叉熵作为损失函数，首先给出交叉熵的计算公式：
二分类中：
$\mathcal{L}=\frac1{N}\sum_{i}L_i=\frac1{N}\sum_{i}-[y_ilog(p_i)+(1-y_i)\cdot log(1-p_i)]$ ??其中， $y_i$ 表示样本的label， $p_i$ 表示第i个样本预测为正类的概率。
多分类中：
$\mathcal{L}=\frac1{N}\sum_{i}=-\frac1{N}\sum_{i}\sum_{c=1}^{M}y_{ic}log(p_{ic})$ ??其中，M是样本类别的数量， $y_{ic}$ 是样本i的label取等于c取1，否则取0， $p_{ic}$ 第i个样本预测属于类别c的概率。
??那么交叉熵为什么好呢，举一个例子：

预测值	label	是否正确
0.3 0.3 0.4	0 0 1 （democrat）	是
0.3 0.4 0.3	0 1 0 （republican）	是
0.1 0.2 0.7	1 0 0 （other）	否

??如果使用分类误差作为损失函数，该神经网络的分类误差为 1/3，请注意，这个net只是勉强正确地完成了前两个样本，并且在第三个样本上相差甚远。看这个例子：

预测值	label	是否正确
0.1 0.2 0.7	0 0 1 （democrat）	是
0.1 0.7 0.2	0 1 0 （republican）	是
0.3 0.4 0.3	1 0 0 （other）	否

??这个net的分类误差也是1/3，但是它很明显比上面那两个更好，对于前两个样本它很好的完成了分类，对于第三个样本则比较勉强，我们发现，分类误差是一种非常粗略的性能度量标准。
??对于这两个net我们计算交叉熵的值分别是1.37和0.54，第二个net的损失就比较小，这是符合逻辑的，相比于分类误差，交叉熵会更精细。同样我们也可以计算均方误差（MSE）作为损失，它的公式为： $MSE=\frac1n\sum_i^n(\hat{y_i}-y_i)^2$ ??计算出来的值分别是0.81和0.34。但是相比于交叉熵，MSE过于强调不正确的输出，如果使用softmax层进行分类，反向传播的方法训练网络，有可能出现训练停滞不前的情况。

本文的例子来自Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training

文章来源:https://blog.csdn.net/zly_Always_be/article/details/135156803
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！