教你用SadTalker一键整合包轻松制作专属数字人

发布时间：2024年01月10日

数字人的效果：?

🎵我用SadTalker制作了专属虚拟数字人，还会唱歌哦，多多点赞关注就出教程呦💗

SadTalker有独立离线版Ai数字人，也可以在Stable Diffusion以插件的形式使用，但是如果显卡小的话还是建议使用独立版，毕竟Stable Diffusion也要占用显卡。

我在逛B站时，找到了一键整合包，直接下载双击启动就可以使用，非常方便，那么安装包可以如下方式下载。

百度网盘：百度网盘请输入提取码

夸克链接（不限速）：https://pan.quark.cn/s/129af21d115d

B站：Ai应用分享站丨Danny

先说下我的显卡，大家参考下，我的显卡是6G，10秒内的音频转换数字人需要一分钟左右，我的显卡就不能选择高清了，选择高清就卡的不行。

?下载下来解压，目录内容如下：

我们进入SadTalker里的ffmpeg文件夹，这里我们需要按如下方式先配置下环境变量，

然后进入SadTalker目录里点击一键启动，弹出CMD，等待CMD里出现WEB UI的路径地址，复制地址到网页上就可以了。

界面如下，左部分是原文件上传，右上部分是进行数字人转换时参数的设置，右下部分是生成数字人后显示的地方。

素材准备

首先我们准备图片，可以真人，动漫都可以，最好是正面头像，（测试后最好是咧嘴微笑的照片口型更自然，紧闭双唇嘴部运动效果不明显，）有些图片效果不好，可以多换些图片，有的效果很好，然后图片可以是SD生成图片，也可以你本人照片，或者网图。

语音准备，我是在在线的文本转语音工具，这个工具还蛮不错的，不用登录什么的，可以直接使用，界面如下，

在线免费文字转语音 - TTSMaker官网 | 马克配音

?转换成功，可以点击下载文件到本地，全程不用其他登录注册操作，这点简直太棒了！

上传图片和声音直接点击生成，等待片刻，控制台就开始处理，

参数说明：

Pose style：视频人物的姿势，姿势变化种类。
face model resolution：视频分辨率，小显卡老老实实的256，我试过512界面直接卡的不行，而且生成时间比较长。
preprocess:图片处理方式，包括crop/resize/full/extcrop/extfull

? ? ? ? ? crop：从图片中截取头部生成视频

? ? ? ? ? resize：拉伸，适合大头照或证件照

? ? ? ? ? full：保留全身，全身照生成视频

? ? ? ? ? extcrop：加强版裁剪主要聚焦头部，试了下，小显卡效果还是不行

? ? ? ? ? extfull：加强版全身，试了下，小显卡效果还是不行

still mode：减少头部运动，负面效果就是头不怎么动了，按自己需求使用。
batch size in generation：同时处理数，越大处理越快，但是也废显存，看GPU能力。
GFPGAN as Face enhancer：修脸，基于gfpgan对视频增强。

?执行转换时的控制台，此时转换完毕。

?因为我们选择的默认的crop，所以就裁剪了头部，视频截图如下。

如果全身图的效果，就是眼睛效果不太好，一直有点眯眯眼，然后测试了多个发现微笑以及咧嘴笑的生成效果最好，嘴部说话效果最好。

?选择了resize就崩了，哈哈哈，但是这个分图片，有的图片选择resize就可以。

文章来源:https://blog.csdn.net/dfBeautifulLive/article/details/135504462
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！