【AI】深度学习在编码中的应用(7)

发布时间:2024年01月21日

目录

一、损失函数在图像压缩中的应用

二、损失函数的常见指标

2.1 感知指标

2.2 经典失真指标


本文来梳理和学习人工智能编码的第4个环节损失函数设计。

一、损失函数在图像压缩中的应用

损失函数用于指导图像压缩算法的优化过程。在设计图像压缩系统时,常用的损失函数包括重构损失(reconstruction loss)和感知损失(perceptual loss)。

  • 重构损失:衡量压缩后图像与原始图像之间的差异,通常使用像素级的均方误差(MSE)或平均绝对误差(MAE)。这些损失函数关注像素级别的准确性,但在保持纹理和细节方面可能表现不佳。
  • 感知损失:旨在捕捉图像在感知层面上的相似性,而不仅仅是像素级别的差异。感知损失通常利用预训练的深度神经网络(如VGG网络)来提取图像的高级特征,并比较这些特征在压缩前后的差异。这种损失函数在保持图像的视觉质量方面更为有效。

二、损失函数的常见指标

图像压缩方法的性能评测一般使用 FID、KID、NIOE、LPIPS 等多种感知指标,以及PSNR、MS-SSIM 等经典失真指标。

在图像压缩领域,损失函数、感知指标以及相关的评价指标(如FID和PID)都扮演着至关重要的角色。这些指标帮助研究者量化压缩算法的性能,并在保持图像质量的同时实现高效的压缩。

2.1 感知指标

FID (Fréchet Inception Distance)

  • 定义:FID是一种计算两个图像集合(例如真实图像和生成/压缩图像)之间差异的度量。它使用Inception网络提取特征,并计算两个特征分布之间的Fréchet距离(也称为Wasserstein-2距离)。
  • 解释:FID较小意味着生成/压缩图像的分布与真实图像分布更为相似,即视觉质量更高。
  • 相关技术:FID通常用于评估生成模型(如GANs)的性能,但也可以用于图像压缩中,以衡量压缩算法在保持感知质量方面的能力。

KID (Kernel Inception Distance)

  • 定义:KID是FID的一种变体,它使用多项式核函数来计算特征空间中的距离,而不是Fréchet距离。
  • 解释:与FID类似,KID用于衡量两个图像集合之间的差异,但计算方式略有不同。KID较小同样表示图像质量较高。
  • 相关技术:KID的计算相对FID更加简单和快速,因此在一些需要快速评估的场景中可能更受欢迎。

NIOE (Normalized Inception-based Objective Evaluation)

  • 定义:NIOE是一种基于Inception网络的图像质量评估指标,它通过比较原始图像和压缩/处理后的图像在特征空间的统计特性来评估质量。
  • 解释:NIOE将Inception网络的特征差异进行归一化处理,以得到一个无单位的度量值,用于评估图像质量的下降程度。
  • 相关技术:NIOE的设计旨在与人类视觉系统的特性更加一致,因此在一些需要与人类感知对齐的应用中可能更受青睐。

LPIPS (Learned Perceptual Image Patch Similarity)

  • 定义:LPIPS是一种学习得到的感知图像块相似性度量,它使用深度神经网络(如AlexNet或VGG)来提取图像特征,并计算这些特征之间的距离。
  • 解释:LPIPS能够捕捉到图像在纹理、颜色和空间结构等方面的差异,与人类视觉系统的感知差异较为一致。
  • 相关技术:LPIPS可以通过在不同层次的网络特征上进行计算来提供多尺度的质量评估,这在分析图像压缩算法的性能时非常有用。

2.2 经典失真指标

PSNR (Peak Signal-to-Noise Ratio)

  • 定义:PSNR是一种衡量图像重构质量的客观指标,它计算原始图像和重构/压缩图像之间的均方误差(MSE)的对数值。
  • 解释:PSNR值越高,表示重构/压缩图像与原始图像之间的差异越小,即失真程度越低。
  • 相关技术:PSNR是最早用于评估图像压缩质量的指标之一,但它不总是与人类视觉系统的感知质量完全一致。

MS-SSIM (Multi-Scale Structural Similarity Index)

  • 定义:MS-SSIM是一种多尺度的结构相似性指标,它衡量原始图像和重构/压缩图像在结构信息上的相似性。
  • 解释:MS-SSIM值越接近1,表示两幅图像在结构上越相似,即重构/压缩图像保留了更多的结构信息。
  • 相关技术:MS-SSIM是SSIM指标的一个扩展,它通过在不同尺度上计算相似性来提供更全面的质量评估。

这些指标在图像压缩领域中被广泛使用,因为它们能够从不同角度全面评估压缩算法的性能。感知指标与人类视觉系统的感知质量更加一致,而经典失真指标提供了更直观和计算简单的质量评估方式。在实际应用中,通常会结合多种指标来全面评估图像压缩方法的性能。

文章来源:https://blog.csdn.net/giszz/article/details/135727917
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。