【思路合集】talking head generation+stable diffusion

发布时间：2024年01月23日

1 以DiffusionVideoEditing为baseline：

改进方向

针对于自回归训练方式可能导致的漂移问题：

训练时，在前一帧上引入小量的面部扭曲，模拟在生成过程中自然发生的扭曲。促使模型查看身份帧以进行修正。
在像VoxCeleb或LRS这样的具有不受限制条件的训练集中，训练更多样化的说话人数据。

针对训练速度慢，算力消耗大的问题：

作者尝试在潜空间中进行训练以加快训练速度，但是样本质量下降，因此在像素空间中操作，且只能训练128x128大小的数据。改进模型的训练速度对我们来说是首要任务，这将使我们能够在更大、更多样化的“野外”数据集上进行训练，如VoxCeleb [45]或LRS [12]。

希望尝试用LDM的方法训练，看如何在latent space训练且不降低样本质量。

语音条件：计划探索使用更广泛的语音特征作为模型条件的潜力，例如使用预训练的音频编码器，如Wav2Vec2 [3]、Whisper [52]或DeepSpeech2 [1]。相信结合这些特征可能会提高我们模型的唇部同步性能，并生成更逼真、表现力更强的唇部运动。

针对生成的说话头的抖动问题：

时间一致性：确保生成的说话头在时间上是连续和平滑的。在模型中引入时间依赖性，使用前一帧或前几帧的信息作为输入，增加生成的连贯性。
噪声注入：在输入数据中添加噪声或随机性，帮助减少生成结果中的抖动。通过在训练过程中或生成过程中引入适量的噪声，可以使模型更具鲁棒性。
重复惩罚：在生成过程中，通过记录已生成的特征或帧，并在后续生成中降低其权重，可以减少重复出现的特征或帧。这有助于生成更加平稳和多样化的说话头。
额外的约束或先验知识：对说话头进行进一步控制。例如，可以限制嘴唇形状的变化范围、语音速度的变化范围等，以减少不自然的抖动。
数据增强和多样性：通过使用更多的训练数据、数据增强技术和多样性增强方法，可以使模型更好地学习说话头的多样性，并减少抖动。例如，通过随机裁剪、旋转、缩放、添加变形等方式扩充训练数据。

用到的方法

1.Palette: Image-to-image diffusion models：通过将前一帧和身份帧连接到遮挡帧上，来训练模型生成所需的帧。

2.可以在我们的解决方案之上应用诸如[Learning trajectory-aware transformer for video superresolution]的视频超分辨率技术，以获得高分辨率的样本。

3.在U-Net内的条件残差块中发送音频特征，来驱动面部动画，对unet的改动详见[Diffused heads: Diffusion models beat gans on talking-face generation. ]

2 以DreamTalk为baseline：

改进方向

1.?风格与内容分离：研究如何将说话头的风格和内容进行有效地分离和控制。通过引入额外的约束或正则化项来实现，在保持风格一致的同时，灵活地修改或替换内容。一种方法是条件生成模型，将风格信息作为附加输入，使模型能够根据给定的风格，生成相应说话头。通过调整风格输入，可以改变生成结果的风格，例如从正式到随意的转变。另一种方法是风格迁移，通过将源样本（具有某种风格）与目标样本（希望采用的另一种风格）进行对齐和学习，从而将源样本的内容转移到目标样本的风格中，从而在不改变内容的情况下修改风格。

用到的方法

1.人脸运动由渲染器 [Pirenderer: Controllable portrait image generation via semantic neural rendering] 渲染成视频帧，并对其微调，使渲染器具有情感表达生成能力。还负责将将输出的人脸运动渲染为视频。

2.?人脸运动被参数化为来自3D可变形模型[A morphable model for the synthesis of 3d faces.]的表情参数序列。

3.仅使用标准扩散模型中的去噪损失，会导致不准确的唇部运动。补救方法：由预训练的唇部专家[A lip sync expert is all you need for speech to lip generation in the wild]提供唇动指导。（然而，唇部专家只关注一般的说话风格，这导致生成统一风格的面部运动。）

4.为了从人脸运动m中获取唇动信息，首先将m转换为相应的人脸网格，并选择嘴巴区域的顶点作为唇部运动表示[Styletalk: One-shot talking head generation with controllable speaking styles]。嘴唇运动和音频编码器分别主要由MLPs和1d卷积实现。

5.开发了一个去噪网络：创建富有表现力的、音频驱动的面部动作。风格感知嘴唇专家：优化口型同步，同时不影响风格表达。风格预测器：直接从音频中推断说话风格，从而消除了对视频参考的需要。

基线方法：MakeitTalk[105]、Wav2Lip[49]、PCAVS[104]、AVCT[84]、GC-AVT[37]、EAMM[30]、StyleTalk[46]、DiffTalk[58]、SadTalker[100]、PDFGC[78]和EAT[20]。

3 其他论文及方法

有效利用隐空间：DAE (Diffusion Autoencoder) ，DAE-Talker的前置文章。将DDIM的控制信息编码到类似StyleGAN的隐空间，借此实现与StyleGAN类似的可控图像生成。与StyleGAN不同的是它将latent code分为两部分，分别是有语义意义的线性隐码和捕捉随机细节的“Noise”。?

提高分辨率：加入metaportrait之类的超分算法，或最后接gfpgan进行图像修复，高清细节恢复。?

插帧：RIFE，可以改善说话头生成效果：Real-Time Intermediate Flow Estimation for Video Frame Interpolation

利用面部先验：Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors

TH-PAD (zxyin.github.io)

端到端无监督运动迁移框架：Thin-Plate Spline Motion Model for Image Animation，TPSMM，code：GitHub - yoyo-nb/Thin-Plate-Spline-Motion-Model: [CVPR 2022] Thin-Plate Spline Motion Model for Image Animation.

高清建议从GFPGAN 改为 ONNX / TensorRT.

文章来源:https://blog.csdn.net/weixin_57974242/article/details/135623970
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！