Wav2Lip:准确生成一个唇语识别视频

2023-12-22 18:44

本文主要是介绍Wav2Lip:准确生成一个唇语识别视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近小编在GitHub里面闲逛发现一个3年前的项目,里面的任务是AI生成唇语的,根据你输入的语音修改你输入的视频,使得你的视频能对的上你输入的语音。因为版本一直没有被维护,有一些python库太久无法安装,有一些还有冲突,所以小编帮忙改代码更新了版本,目前把新版本放到GitHub上面xiaoou2/wav2lip (github.com)

如果想训练的小伙伴可以下载数据集



唇读句子 2 (LRS2) 数据集 (ox.ac.uk)

lrs2数据集main_数据集-飞桨AI Studio星河社区 (baidu.com)

获取方式:

1.根据网站https://www.bbc.co.uk/rd/projects/lip-reading-datasets提示,获取word版数据集申请文件,在文件最后签署使用协议,使用邮箱发送到该网站指定邮箱,等待一两天即可收到带有用户名和密码的邮件。

2.点击上图中“Download”链接,使用用户名密码登陆,即可下载数据集。共计50GB左右,下载所需时间较长。

要想更多的数据集,可以参考史上最详细唇语识别数据集综述-CSDN博客 

小编没有进行尝试重新训练,因为机器太烂了qaq,但是下载原GitHub下的训练好的模型和视频来玩了一下,对于英文的唇语生成准确率还是很高的(中文没尝试过,不过看介绍视频觉得准确率也不差) 。原GitHub好像没有公开模型的结构和论文,所以这里主打一个拿来主义

1.使用预训练模型生成视频

下载好代码后,通过pip install -r requirements.txt下载对应的库(可能还会缺一点,通过pip install 安装应该可以解决,因为小编的环境不是全新的conda环境,里面有一些以前下载过的包)

主要准备4样东西,在里面找到链接下载预训练模型,找到一段语音和视频,时长要切割成一样,而且里面规定了视频要一直看到人脸.因为使用的是人脸检测算法,还需要在GitHub提供的链接下载一个训练好的人脸检测模型,改名s3fd.pth,放在Wav2Lip\face_detection\detection\sfd路径下。

做完一切功夫后,在终端执行这个命令,主要是输入这3样东西的相对路径

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source> 

注意:<>是多余的,删去,主要是为了标注输入相对路径

2.训练自己的模型 

训练文件需要有jpg图片和wav视频,训练数据从小编给的公开数据下载吧(data下有mian(自己划分train、val、test)和pretrain(模型预训练,label较为复杂)两个文件夹)

通过阅读要求发现好像要训练两个,先训练一个专业的口型同步鉴别器,如何再训练Wav2Lip模型。

训练鉴别器

python color_syncnet_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints>

训练Wave2Lip模型

python wav2lip_train.py --data_root lrs2_preprocessed/ --checkpoint_dir <folder_to_save_checkpoints> --syncnet_checkpoint_path <path_to_expert_disc_checkpoint>

小编也没有训练过,所以可能训练部分代码中会有库的版本冲突,如果有小伙伴发生报错可以跟我说一下我也好纠错重发,谢谢各位批评指正!!!

希望这篇博客能帮助到你!!!!!

这篇关于Wav2Lip:准确生成一个唇语识别视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/525055

相关文章

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python如何生成指定文件大小

《python如何生成指定文件大小》:本文主要介绍python如何生成指定文件大小的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python生成指定文件大小方法一(速度最快)方法二(中等速度)方法三(生成可读文本文件–较慢)方法四(使用内存映射高效生成

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

MybatisX快速生成增删改查的方法示例

《MybatisX快速生成增删改查的方法示例》MybatisX是基于IDEA的MyBatis/MyBatis-Plus开发插件,本文主要介绍了MybatisX快速生成增删改查的方法示例,文中通过示例代... 目录1 安装2 基本功能2.1 XML跳转2.2 代码生成2.2.1 生成.xml中的sql语句头2

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

SpringBoot实现二维码生成的详细步骤与完整代码

《SpringBoot实现二维码生成的详细步骤与完整代码》如今,二维码的应用场景非常广泛,从支付到信息分享,二维码都扮演着重要角色,SpringBoot是一个非常流行的Java基于Spring框架的微... 目录一、环境搭建二、创建 Spring Boot 项目三、引入二维码生成依赖四、编写二维码生成代码五

Android与iOS设备MAC地址生成原理及Java实现详解

《Android与iOS设备MAC地址生成原理及Java实现详解》在无线网络通信中,MAC(MediaAccessControl)地址是设备的唯一网络标识符,本文主要介绍了Android与iOS设备M... 目录引言1. MAC地址基础1.1 MAC地址的组成1.2 MAC地址的分类2. android与I