stbilityai/stable-video-diffusion-img2vid-xt模型,由Stability AI开发和训练的基于散度的图像到视频生成模型。该模型可以接受一张静态图像作为条件,并生成出一个短视频。
优缺点
该模型旨在用于研究目的,可以用来研究生成模型、部署安全模型、理解模型的局限性等。它不适合用来生成关于真实人物或事件的视频。
该模型的一些局限包括生成的视频较短、运动不够自然流畅、无法用文本进行控制等。
Stable Video Diffusion(稳定视频扩散),这是一种用于高分辨率、最先进的文本到视频和图像到视频合成的潜在视频扩散模型。
为构建预训练数据集,作者进行了系统的数据选择和缩放研究,并提出了一种策略来整理海量视频数据,将大量嘈杂的视频集合转化为适合生成式视频建模的数据集。
作者还引入了视频模型训练的三个不同阶段,并分别分析了它们对最终模型性能的影响。这三个阶段是:图像预训练、视频预训练和视频微调。
Stable Video Diffusion提供了一个强大的视频表示,作者通过在该模型的基础上进行微调,得到了最先进的图像到视频合成模型和其他高相关应用,如用于相机控制的LoRAs。
最后,作者进行了视频扩散模型的多视图微调的开创性研究,表明Stable Video Diffusion构成了一个强大的3D先验知识,在多视图合成中取得了最先进的结果,而其计算量只是之前方法的一小部分。
https://github.com/Stability-AI/generative-models
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
先决条件:
使用 Git 从 GitHub 克隆仓库。
git clone https://github.com/Stability-AI/generative-models.git
导航到仓库目录
克隆后,导航到克隆的仓库目录。
cd generative-models
创建并激活Python虚拟环境
conda create --name svd python=3.10 -y
conda activate svd
pip3 install -r requirements/pt2.txt
pip3 install .
cd generative-models
streamlit run scripts/demo/video_sampling.py --server.address 0.0.0.0 --server.port 7862