Wav2Lip：准确生成一个唇语识别视频

本文主要是介绍Wav2Lip：准确生成一个唇语识别视频，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近小编在GitHub里面闲逛发现一个3年前的项目，里面的任务是AI生成唇语的，根据你输入的语音修改你输入的视频，使得你的视频能对的上你输入的语音。因为版本一直没有被维护，有一些python库太久无法安装，有一些还有冲突，所以小编帮忙改代码更新了版本，目前把新版本放到GitHub上面xiaoou2/wav2lip (github.com)

如果想训练的小伙伴可以下载数据集

唇读句子 2 （LRS2）数据集 (ox.ac.uk)

lrs2数据集main_数据集-飞桨AI Studio星河社区 (baidu.com)

获取方式：

1.根据网站https://www.bbc.co.uk/rd/projects/lip-reading-datasets提示，获取word版数据集申请文件，在文件最后签署使用协议，使用邮箱发送到该网站指定邮箱，等待一两天即可收到带有用户名和密码的邮件。

2.点击上图中“Download”链接，使用用户名密码登陆，即可下载数据集。共计50GB左右，下载所需时间较长。

要想更多的数据集，可以参考史上最详细唇语识别数据集综述-CSDN博客

小编没有进行尝试重新训练，因为机器太烂了qaq，但是下载原GitHub下的训练好的模型和视频来玩了一下，对于英文的唇语生成准确率还是很高的（中文没尝试过，不过看介绍视频觉得准确率也不差）。原GitHub好像没有公开模型的结构和论文，所以这里主打一个拿来主义

1.使用预训练模型生成视频

下载好代码后，通过pip install -r requirements.txt下载对应的库（可能还会缺一点，通过pip install 安装应该可以解决，因为小编的环境不是全新的conda环境，里面有一些以前下载过的包）

主要准备4样东西，在里面找到链接下载预训练模型，找到一段语音和视频，时长要切割成一样，而且里面规定了视频要一直看到人脸.因为使用的是人脸检测算法，还需要在GitHub提供的链接下载一个训练好的人脸检测模型，改名s3fd.pth，放在Wav2Lip\face_detection\detection\sfd路径下。

做完一切功夫后，在终端执行这个命令，主要是输入这3样东西的相对路径

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

注意：<>是多余的，删去，主要是为了标注输入相对路径

2.训练自己的模型

训练文件需要有jpg图片和wav视频，训练数据从小编给的公开数据下载吧(data下有mian（自己划分train、val、test）和pretrain（模型预训练，label较为复杂）两个文件夹)

通过阅读要求发现好像要训练两个，先训练一个专业的口型同步鉴别器，如何再训练Wav2Lip模型。

训练鉴别器

python color_syncnet_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints>

训练Wave2Lip模型

python wav2lip_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints> --syncnet_checkpoint_path <path_to_expert_disc_checkpoint>

小编也没有训练过，所以可能训练部分代码中会有库的版本冲突，如果有小伙伴发生报错可以跟我说一下我也好纠错重发，谢谢各位批评指正！！！

希望这篇博客能帮助到你！！！！！

这篇关于Wav2Lip：准确生成一个唇语识别视频的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！