2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

2024-09-02 17:36

本文主要是介绍2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

2024-09-01 周日 杭州 风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审,前几天摔伤的地方也逐渐愈合了,不过现在的我多少还是有点叛逆的,天天洗澡,等伤好了一定要去泡温泉。

应用实践

1 项目获取
git clone https://github.com/ai-liuys/DH_live.git
2 安装依赖
# windows 研发测试,需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html
3 创建运行环境
# AI 环境,默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate # 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available()) 
4 模型文件解压
cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth
5 数字人模板
python data_preparation YOUR_VIDEO_PATH
6 数字人合成

将上一步生成的模板和视频放在同一个目录下,比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4
6 语音输入合成
python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行,确保无缝和交互式的直播体验。

主要特点
实时性能:数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习:该系统能够从几个例子中学习,以生成逼真的响应。

效果一般,官方提供的案例,测试是通过的,并且代码有点粗糙,项目提供的视频文件合成过程不会有什么问题,我自己采集的视频和音频合成过程就会有视频帧数的报错问题,数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果,并不会进一步使用此项目。

这篇关于2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130614

相关文章

Java中的Schema校验技术与实践示例详解

《Java中的Schema校验技术与实践示例详解》本主题详细介绍了在Java环境下进行XMLSchema和JSONSchema校验的方法,包括使用JAXP、JAXB以及专门的JSON校验库等技术,本文... 目录1. XML和jsON的Schema校验概念1.1 XML和JSON校验的必要性1.2 Sche

Python Excel 通用筛选函数的实现

《PythonExcel通用筛选函数的实现》本文主要介绍了PythonExcel通用筛选函数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录案例目的示例数据假定数据来源是字典优化:通用CSV数据处理函数使用说明使用示例注意事项案例目的第一

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

基于Python实现数字限制在指定范围内的五种方式

《基于Python实现数字限制在指定范围内的五种方式》在编程中,数字范围限制是常见需求,无论是游戏开发中的角色属性值、金融计算中的利率调整,还是传感器数据处理中的异常值过滤,都需要将数字控制在合理范围... 目录引言一、基础条件判断法二、数学运算巧解法三、装饰器模式法四、自定义类封装法五、NumPy数组处理

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口