TISE (Text-to-Image Synthesis Evaluation)是一款用于评估文本生成图像的Python评估工具箱。文章由Tan M. Dinh, Rang Nguyen, and Binh-Son Hua等人发表。
其以统一的方式促进、倡导公平的评估度量,并为未来的文本到图像综合研究提供可重复的结果。
文章链接:https://arxiv.org/abs/2112.01398
项目链接:https://github.com/VinAIResearch/tise-toolbox
在本文中,我们对最先进的文本到图像合成方法进行了研究,并提出了评估这些方法的框架。我们考虑图像包含单个或多个对象的合成。我们的研究概述了当前评估过程中的几个问题:
- (i)对于图像质量评估,一个常用的指标,例如启始得分(IS),在单对象情况下经常被错误校准,或者在多对象情况下被误用;
- (ii)对于文本相关性和对象准确性评估,在现有的R-精度(RP)和语义对象准确性(SOA)度量中分别存在过拟合现象;
- (iii)对于多目标情况,许多重要的评估因素,如目标保真度、位置对准、计数对准,在很大程度上被忽略;
- (iv)基于当前度量的方法的排名与真实图像高度不一致。为了克服这些问题,我们提出了一组现有的和新的指标来系统地
尽管目前文本生成图像在特定的数据集上取得了优异的结果但目前的评估方法并非理想。
对于单对象情况,图像质量和文本图像对齐是典型评估过程中考虑的主要因素。一些常用的评估指标是图像保真度的起始得分(IS)和Fr′echet起始距离(FID)以及文本图像对齐的R精度(R-precision),在大多数单对象情况下都很有效。
然而,在具有多个对象的复杂场景中,这些度量指标并不完全有效,会导致一些不一致性问题。如下图所示,基于当前度量的GAN模型的排名与其生成的图像质量并不强相关。有些看起来不真实的图片,量化结果甚至高于真实照片的结果。
在这个问题的基础上,作者开发了一种系统的方法来评估文本到图像的合成方法,主要贡献如下:
1??、Inception Score(IS)
IS分数用到了KL散度和熵的数学知识,其主要原理在于计算p(y|x)和p(y)之间的散度:
I S = exp ? ( E x K L ( p ( y ∣ x ) ∥ p ( y ) ) \mathrm{IS}=\exp \left(\mathbb{E}_{x} \mathrm{KL}(p(y \mid x) \| p(y))\right. IS=exp(Ex?KL(p(y∣x)∥p(y))
其中:
综上所述,IS分数越大越好。越大表示散度越大,即两者熵的差值越大。
2?? 、Fr′echet Inception Distance (FID)
FID分数用于根据预训练网络提取的特征,测量真实图像分布和生成图像分布之间的距离。
F I D = ∥ μ r ? μ g ∥ 2 2 + Tr ? ( Σ r + Σ g ? 2 ( Σ r Σ g ) 1 / 2 ) \mathrm{FID}=\left\|\boldsymbol{\mu}_{r}-\boldsymbol{\mu}_{g}\right\|_{2}^{2}+\operatorname{Tr}\left(\boldsymbol{\Sigma}_{\boldsymbol{r}}+\boldsymbol{\Sigma}_{g}-2\left(\boldsymbol{\Sigma}_{\boldsymbol{r}} \boldsymbol{\Sigma}_{g}\right)^{1 / 2}\right) FID= ?μr??μg? ?22?+Tr(Σr?+Σg??2(Σr?Σg?)1/2)
其中:
FID计算两个分布之间的距离,距离越小代表生成的分布越贴近于真实分布,故FID越小越好。
3??、R-precision
R-precision通过对提取的图像和文本特征之间的检索结果进行排序,来衡量文本描述和生成的图像之间的视觉语义相似性。除了生成图像的真实文本描述外,还从数据集中随机抽取其他文本。然后,计算图像特征和每个文本描述的text embedding之间的余弦相似性,并按相似性递减的顺序对文本描述进行排序。如果生成图像的真实文本描述排在前r个内,则相关。
R-precision表示的是排序后真实文本出现在前r个的概率,越大说明图像与真实文本描述越相关,R-precision越大越好。
用于计算IS的Inception网络的预训练分类器是未校准或错误校准的。因此,分类器往往过拟合或者欠拟合。
而IS是否校准可以通过使用预期校准误差(ECE)和可靠性图进行验证。ECE是用于评估校准的常用指标,而可靠性图是可视化校准质量的工具。如果分类器具有较小的ECE值,并且可靠性图接近同一性,则分类器被很好地校准。
为此,作者提出Improved Inception Score (IS*) ,这是一种改进的Inception分数,用于评估生成图像的质量。它通过校准分类器的置信度来解决这些问题。具体来说,作者使用了期望校准误差(ECE)和可靠性图来验证分类器的校准质量。如果一个分类器的ECE值较小并且可靠性图接近单位矩阵,那么这个分类器就是良好校准的。
通过这种方式,IS*不仅考虑了图像质量和文本-图像对齐度(这是传统Inception分数所考虑的),还考虑了分类器的信心水平,从而提供了更准确和全面的评估。
Object-centric IS (O-IS) 是一种评估生成图像中对象保真度的指标,它是Inception Score (IS) 的扩展。在文档中,作者提到现有的一些评估方法无法直接应用于文本到图像的任务,因为它们需要使用真实图像的对象边界框来提取对象,而这在文本到图像任务中是不存在的。为了解决这个问题,O-IS 利用了一个预先训练好的对象检测模型来预测生成图像中所有对象的边界框,然后对每个区域分别进行IS评分。这样,即使没有真实的对象边界框,也能够评估生成图像中的对象保真度。
与Object-centric IS (O-IS)类似,SceneFID 需要从布局中提取目标对象的边界框,因此,O-FID 使用预先训练好的目标检测模型来预测生成图像集中所有图像中的对象边界框,然后对每个区域分别进行 IS* 评分和 FID 评分,以此来评估对象保真度。
后面作者还提出了用于位置对齐的PA和用于计数对齐的CA,以评估多对象文本到图像合成中缺乏的方面。
作者创建了一个名为AttnGAN++的简单但强大的基线模型,主要通过以下两个方面来提升原始的AttnGAN模型:
通过这两个方面的改进,AttnGAN++在多个评估指标上都显著超越了原始的AttnGAN模型以及现有的一些最先进的方法。
另外文章还有很多其他内容,这里不再赘述。
本研究探讨了文本到图像合成(T2I)的评估问题,特别关注多对象场景。作者指出当前评估流程存在几个问题,如单对象情况下Inception Score(IS)的误用、多对象情况下R-precision(RP)和Semantic Object Accuracy(SOA)的过拟合现象,以及忽略的关键评估因素如对象保真度、位置对齐和计数对齐等。
而为解决这些问题,作者提出了一个综合的现有和新指标集来系统地评估这些方法。对于现有指标,作者改进了IS并提出了解决RP和SOA过拟合问题的方法。对于新指标,作者开发了用于评估多对象情况的Object-centric IS (O-IS) 和 Object-centric FID (O-FID) 。实验证明,使用这个指标集进行基准测试可以得到与人类评估高度一致的模型排名。此外,作者还创建了一个名为AttnGAN++的基线模型,并通过谱归一化稳定了AttnGAN的训练。最后,作者发布了名为TISE的工具箱,用于倡导公平和一致的文本到图像模型评估。文章比较长,一共有34页,阅读起来比较难,但是值得一提的是实验比较丰富,附录部分值得一看。