从SIFT和视觉词袋到卷积神经网络(cnn),图像表示几乎是任何图像理解系统的关键组成部分。然而,我们对它们的了解仍然有限。在本文中,我们通过提出以下问题对表征中包含的视觉信息进行直接分析:给定图像的编码,在多大程度上可以重构图像本身?为了回答这个问题,我们提出了一个纵向表示的一般框架。我们表明,这种方法可以比最近的替代方法更准确地反演HOG和SIFT等表示,同时也适用于cnn。然后,我们第一次使用这种技术来研究最新的CNN图像表示的逆。在我们的研究结果中,我们发现cnn中的几个层保留了图像的精确信息,具有不同程度的几何和光度量不变性。
在本文中,我们通过表征它们保留的图像信息(图1)来对表征进行直接分析。我们通过将表征建模为图像x的函数Φ(x),然后计算近似逆Φ - 1,从代码Φ(x)重建x来实现。一种常见的假设是,表示分解了图像中不相关的差异(例如照明或观点),因此Φ不应该是唯一可逆的。因此,我们将此作为一个重建问题,并找到许多可能的重建而不是单一的重建。通过这样做,我们可以深入了解表示所捕获的不变性。
图中显示了在ImageNet数据上训练的参考CNN13的倒数第二层提取的1000维代码获得的参考图像的五种可能的重建。从模型的角度来看,所有这些图像实际上是等效的。这幅图像以彩色/屏幕观看效果最好。
首先,我们提出了一种通用的方法来反转表征,包括SIFT、HOG和cnn(第2节)。至关重要的是,该方法仅使用来自图像表征的信息和一般的自然图像先验,从随机噪声开始作为初始解,因此仅捕获表征本身包含的信息。我们讨论并评价了不同的正则化惩罚作为自然图像先验。
其次,我们表明,尽管该方法简单且通用,但与最近的替代方法相比,该方法从DSIFT和HOG中恢复的重建效果明显更好[31]。
第三,我们将反演技术应用于最近的深度cnn分析,通过采样可能的近似重构来探索它们的不变性。
第四,我们通过从选定的神经元组中重构图像来研究存储在表征中的信息的局部性,无论是空间还是通道
自然图像先验的重要性:
使用自然图像先验是基于以下几点考虑:
结构约束:自然图像通常具有特定的结构和规律,如局部相似性、平滑过渡和边缘清晰等。利用这些先验知识可以帮助生成更符合真实视觉效果的反向图像。
规模性和一致性:自然图像的特性往往在不同的尺度和视角上保持一致。利用自然图像先验可以确保反转得到的图像在这些方面的表现合理。
去噪和正则化:自然图像先验可以作为正则化项,帮助去除反转过程中的噪声和不稳定性,从而得到更清晰、更准确的图像表示。
在深度神经网络中,卷积层负责提取输入图像的特征。其激活可以被理解为以下几点:
局部特征响应:每个卷积核在图像上滑动并计算元素间的乘积累加,产生的激活值反映了图像在该位置和尺度上的特定特征(如边缘、纹理、颜色等)的强度。
分层抽象:随着网络深度的增加,高层卷积层的激活通常表示更复杂、更抽象的特征。早期层可能捕捉到基本的低级特征,而后期层则可能表示高级的语义或概念信息。
变换不变性:通过训练,卷积神经网络学会了对图像的某些变换(如旋转、缩放、平移等)保持不变的特征表示。因此,卷积层的激活也可以反映图像在这些变换下的不变性质。
本文提出了一种基于梯度下降优化目标函数的浅表示和深表示反演优化方法。与替代方案相比,一个关键的区别是使用图像先验,如V β范数,可以恢复被表示删除的低级图像统计。该工具比其他HOG重建方法性能更好。应用于CNNs,可视化揭示了每一层所表示的信息。特别是,很明显,在网络中形成了一个越来越不变和抽象的图像内容概念。
在未来,我们将尝试更有表现力的自然图像先验,并分析网络超参数对重建的影响。我们将提取编码对象部分的神经元子集,并尝试建立捕获图像不同细节的子网络。