动手学深度学习二:关于熵和损失函数的理解

发布时间:2024年01月11日

李沐动手学深度学习
课程网址:https://courses.d2l.ai/zh-v2/
包含教材和视频网址链接

关于熵,教材中的描述非常形象,那就是描述信息量多少。当我们根据一些数据去预测一个结果,如果这些数据都单一的指向结果,那么这些数据对结果的预测没有信息量。但如果这些数据不能直接指向预测的结果,我们会感到很诧异,相比下来这些数据包含了更多的信息量。(感觉类比于程序员修bug,越是输出不符合预期,这个bug的信息量就越多。)

我们对于模型的最终表现期望,就是对于已知数据集的分布,预测出来的概率分布趋近于实际的分布,也就是模型在训练的过程中,熵是不断减小的过程。

交叉熵损失函数的表达是:
在这里插入图片描述
其中y_hat是softmax函数,保证输出的类别概率在0-1之间,并且概率总和为1,相当于对输出做了规范。将softmax函数带入上式求导
在这里插入图片描述
在这里插入图片描述
神奇的一幕出现了,损失函数对于未规范化的估计值梯度,表示的就是观测值和估计值的差,模型训练过程中,随着梯度的减小(随机梯度下降),观测值和估计值的差也会减小。

如果理解有误,欢迎交流讨论!

文章来源:https://blog.csdn.net/qq_35668469/article/details/135516011
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。