De-Diffusion Makes Text a Strong Cross-Modal Interface

发布时间:2024年01月15日

De-Diffusion Makes Text a Strong Cross-Modal Interface

论文:https://arxiv.org/abs/2311.00618

TL; DR:De-Diffusion 将自然语言作为中间层“特征”,将预训练好的 diffusion 文生图模型作为解码器,训练自编码器的编码器。以自然语言作为中间层“特征”,作为连接各类 LLM 和 txt2img 模型的桥梁,其可解释性、灵活性和语义完备性都更好。

导言

自编码器可以说是最早的图像表征学习方法之一,它由一个编码器和一个解码器组成。自编码器的训练目标是重构损失,编码器提取图像的低维特征,解码器根据该特征重构出原始图像。为了使得解码器能够顺利重构出原始图像,编码器提取的低维特征必须尽可能地保持完整的图像语义内容

一般来说,自编码器的中间层特征一般是隐层嵌入(embedding)。本文提出将自然语言作为中间层“特征”,将预训练好的 diffusion 文生图模型作为解码器,来训练一个自编码器的编码器。说是编码器,但由于这里所谓的“码”是自然语言,所以其实是一个文本生成模型。

为什么用自然语言作为“特征编码”呢?首先一个原因自然是可解释性,我们人类能够直接理解编码出来的特征究竟是什么意思。再一个很重要的一点,是灵活性。现如今各类 LLMs、Diffusion Models 层出不穷,算法各异,但他们都是以自然语言作为 interface 的。De-diffusion 也以自然语言作为“特征编码”,就能灵活地、无缝地对接到各类新出的大模型中。利用各类大模型的能力,做有很多意思的任务。

综上所述,De-Diffusion 训练出的编码器(实际是图生文模型、caption 模型)提取出的自然语言编码,兼具可解释性、灵活性和语义完备性。有着广阔的应用场景。

方法

具体的方法架构如下图所示。整体是一个自编码器模型,其编码器是一个图生文模型,解码器是一个文生图模型,中间特征是自然语言,训练目标是图像重构损失。

为了解码器能够顺利地重构出原始图像,中间的自然语言特征必须详尽可能地描述图片的语义内容。可以说,这里的自然语言要与原图像是一一对应的,每处细节都要体现出来,不然解码器根本没法重构图像。这使得 De-diffusion 编码出的图片描述,相比常见于数据集(如 COCO)中给出人类标注图片描述更加详尽、完备。

具体的方法细节这里不展开了,有兴趣的读者可以参考原文。

在这里插入图片描述

实验结果与应用

得益于 De-Diffusion 选择将自然语言作为中间层特征,其灵活性使得模型可以无缝地适配到各种 LLMs、Diffusion Models 上,来进行各种有趣的应用。同时,自编码器的训练目标要求编码出的自然语言特征语义信息非常完备,基本可以完全代表原图的内容。如下图所示,这里主要提了三种应用:可迁移的 prompts 用于文生图、多模态对话(问答等)、LLM 多模态少样本学习。

在这里插入图片描述

以 “可迁移的 prompts 用于文生图” 为例,如下图所示。上方的 caption 是 De-Diffusion 根据原图提取出来的,下方的 caption 是 COCO 数据集中人工标注的。可以看到,De-Diffusion 生成的结果比人工标注的 caption 要详尽得多。因此,将 De-Diffusion 生成的 caption 再输入到不同的不同的文生图模型中,可以生成出与原图语义一模一样的图片,方差很小。而如果是人工标注的 caption,由于描述不完备,符合文本的解空间巨大,不同模型的生成结果语义差异很大。

在这里插入图片描述

使用 De-Diffusion 生成出的 prompt 来机型文生图,性能比人类写的 prompt 更强。

在这里插入图片描述

总结

真是一篇有趣又有用的工作。利用自编码器的特点,将完整的图像语义提取到自然语言中,同时利用自然语言的灵活性,与多个前沿模型交互,出现很多有趣的应用。

还有一个点,就是现有图文对数据中,文本描述通常比较简短,完全不够详尽。所谓“一图胜千言”,仅使用寥寥数语是很难完整地描述出图像的语义内容的。De-Diffusion 似乎提供了一个思路:利用自编码器需要重构原图的特点,强迫模型将图像语义特征压缩到自然语言文本中。

文章来源:https://blog.csdn.net/weixin_44966641/article/details/135605772
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。