上一节说到经过全连接层之后,神经网络学习到的特征,会从隐层特征空间逐步映射到样本空间,这主要是由于全连接层可以融合全局的特征。
在经过全连接层之后,在 ResNet50 这个神经网络中会输出1000个特征的得分值,这1000个特征的得分值,便可以对应到图像的分类。
怎么对应呢?选取得分最高的那一个特征,它对应的索引下标就是图像分类的索引下标。
这里简单说一下 ResNet50 模型训练时所采用的数据集。ResNet50 是在 ImageNet 数据集上进行的预训练。
ImageNet 是一个大规模的图像数据集,包含超过一百万张图像,涵盖一千个不同类别。ResNet 系列模型,包括 ResNet50,都是在 ImageNet 上进行了训练,从而学到了对各种不同类别的特征表示。
因此我们可以通过查看 ImageNet 上的分类标签,通过全连接层最终输出的结果的最大值对应的索引来获取到最终的图像类别。
下图展示的是一部分 ImageNet 数据标签,可以看到序号为7的分类对应的是 cock,如果神经网络推理完一张图片,最终全连接层输出的结果中,序号为7的数值最大,那么就能说在这一次推理结果是cock。
说到这,肯定会有一些同学有疑问。为什么是最终输出的结果中数值最大的对应的索引代表了最终的结果,而不是数值