论文:Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
官网:https://www.assemblyai.com/blog/how-imagen-actually-works/#how-imagen-works-a-deep-dive
博客:https://cloud.tencent.com/developer/article/2202539
出处:谷歌 | NIPS2022 Oral
本文提出的 Imagen,是一个借用语言模型结合扩散模型来实现 text-to-image 的生成模型,实现具有语言理解能力的文本到图像的生成
Imagen 模型包括两部分:
Text-to-image 模型需要一个很强大的语义理解 text encoder,这样才能捕捉到输入文本的语义
当前很多文生图模型都使用 text-image pairs 的模式来训练文本编码器,例如 CLIP
但本文作者认为大型语言模型也可以是另一种选择来为文本到图片生成任务进行文字编码。最近大型语言模型(如BERT [15], GPT [47, 48, 7], T5 [52]) 上的进步,实现了对于文字理解和生成能力上的飞跃。这些语言模型比只用纯粹比配对图片-文字数据更大规模且分布更广阔丰富的纯粹文字库进行训练。
故本文作者对比了 BERT、T5、CLIP,固定这些模型的权重,也有利于训练过程中减小计算量,对比结果发现,提高文本编码器的体量,就能很好的提高 text-to-image 生成的质量。尽管T5-XXL 和 CLIP 文字编码器在简单基准测试如 MS-COCO 上表现相似,但人类评估员更喜欢T5-XXL 编码器,无论是图片 - 文字对齐还是 DrawBench 片保真度都更好一些。
classifier guidance:
classifier-free guidance:
扩散模型就是从噪声数据中一步步来得到原始图片的过程
这个过程中: