项目主页:https://humanaigc.github.io/animate-anyone/
论文
: Animate Anyone: Consistent and Controllable Image-to-Video
Synthesis for Character Animation
摩尔线程复现代码
:https://github.com/MooreThreads/Moore-AnimateAnyone
原作者讲解
(需要手机端看): https://mp.weixin.qq.com/s/bSV-dxA618LvN76tg4Z0kQ
其他教程视频: 用Comfy UI + Animate Anyone来一键制作抖音视频
demo:在通义前问app
上可以试用 (可生成12秒)
角色动画(Character Animation)是指在通过驱动信号从静止图像中生成角色视频。
图片到视频的难点
在于:保持角色详细信息的一致性
(consistency)
微调模型
来保持生成图片的一致性。帧间抖动
问题。AnimateDiff
: Animate Your Personalized Text-to-Image Diffusion Models without Specific TuningControlNet
:Adding Conditional Control to Text-to-Image Diffusion Models 和 T2I-Adapter
IP-Adapter
: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models给定图像
的特点,生成提示指定的内容的图像。TryOnDiffusion
: A Tale of Two UNets虚拟服装试穿
任务,并引入并行unet结构。.
一致性
(appearance features),设计了ReferenceNet,并通过空间注意力模块
(spatial attention)合并细节特征。姿态引导模块
(pose guider)来指导角色的运动.平滑帧间转换
(smooth inter-frame transitions),采用一种有效的时间建模
(temporal modeling)方法姿态序列
(pose sequence)最初使用Pose Guider进行编码,并与多帧噪声融合,然后进行去噪UNet进行视频生成去噪过程。去噪UNet的计算块由空间注意、交叉注意和时间注意组成,如右边的虚线框所示。参考图像的集成涉及两个方面。首先,通过 ReferenceNet 提取详细的特征并用于 Spatial-Attention。其次,通过CLIP图像编码器提取语义特征进行交叉注意。时间注意在时间维度上运行。最后,VAE 解码器将结果解码为视频剪辑。
原作者胡立讲解
分析关键点、对运动过程建模、驱动
2019 FOMM
2022 TPSMM
代表工作为 stable diffusion +ControlNet (可控)
输入tuning
主要还是模特、连续性不好
驱动跳舞、视频不连续, 一致性不好
生成的效果特别好
有效的图片特征
人物效果一般,长时一致性不厚好
video LDM
Gen-1
videoComposer
AnimateDiff
diffusion模型的生成与可控能力,但是之前的方法效果不稳定
ReferenceNet 、PoseGuider 、Temporal Layer
输入:任务参考图片、驱动任务pose序列
denosing unet 就是stable diffusion的扩展
CLIP 提取图片语意特征、ReferenceNet 提取的是图像细节
问题:看不见地方,手部的精细度
效果
结合换衣(outfit-anything),角色皮肤设计