目录
现有的视频扩散模型(VDM)大多仅限于纯文本条件。因此,它们通常缺乏对生成的视频的视觉外观和几何结构的控制。
今天介绍一种名为 MoonShot 的新视频生成模型,它同时基于图像和文本的多模态输入进行条件控制,在视觉质量和时间一致性方面相对于现有模型有了显著的提高。
已有问题及解决方法:
在视觉外观方面,文字提示词无法精确描述生成的外观。现有解决方法是在一些图片上对模型做微调,从而实现个性化的生成。同样地,对于视频生成,AnimateDiff 依赖于定制的模型权重来注入条件视觉内容,无论是通过 LoRA 还是 DreamBooth。
在几何结构生成方面,尽管已有的方法,如 ControlNet 和 T2I-Adapter,利用深度、边缘图作为图像生成的视觉条件,但类似的策略对于视频合成仍然是不确定的。??在视频生成中,一些工作重用了预训练的 ControlNet 模块来生成图像。然而,它们需要通过帧传播或跨帧注意力机制来适配文本到图像的模型用于视频生成,导致与基于 VDM 的方法相比,时间一致性较差。
MoonShot是一个视频生成模型,它使用图像和文本输入来生成视频。该模型基于一个名为多模态视频块(MVB)的视频生成模块。
每个MVB都有三个主要的设计考虑因素:
传统的时空模块用于视频生成,其中包括一个空间卷积层、一个自注意层和一个聚合空间特征的时间注意层。这种设计允许重复使用文本到图像生成模型的预训练权重,而不改变其空间特征分布,从而包证其生成质量。
解耦的多模态交叉注意层,它在文本和图像输入上调节生成。这两个条件相互补充,以指导生成。此外,图像输入提供参考视觉线索,允许时间模块专注于视频的一致性。这提高了整体的生成质量和帧的连贯性,如实验证明的那样。
自由选择模块,由于空间特征分布被保留,预训练的图像ControlNet模块可以立即集成,以控制生成的几何结构,而不需要额外的训练开销。
有一点值得强调,MoonShot的设计允许它通过使用图像和文本输入生成高质量的视频。该模型的多模态交叉注意层通过使用文本和图像输入来指导生成过程,进而提高整体生成质量和帧的连贯性。
解耦的多模态交叉注意层的总体工作流程和结构。
在训练阶段,使用视频的初始帧作为图像条件。对于推理,模型接受任何图像以及相应的文本。
值得关注的是,在Unet结构中,有一个新颖的操作,解耦Image Feature 和Text Feature 对结果的影响。
具体的:
Latent Feature 经过转换得到Query。
Image Feature 和Text Feature 经过各自相应的Cross-Attn操作,再和Latent Feature 对应的Query做交叉注意操作。
最将结果cat在一起,继续进入Unet 其余结构中。此举充分结合图片和文字提示的信息。
https://arxiv.org/pdf/2401.01827.pdf
这篇文章的提出的多模态Cross-Attn对我启发性很大,但也看到了一些熟悉的影子,比如IP-Adapter, 以及DreaMoving中的content guider,看来结合多种模态组合来引导生成的方法还是挺有潜力的,大家也可以关注一下。
欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!