2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

2024-09-02 17:36

本文主要是介绍2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

2024-09-01 周日 杭州 风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审,前几天摔伤的地方也逐渐愈合了,不过现在的我多少还是有点叛逆的,天天洗澡,等伤好了一定要去泡温泉。

应用实践

1 项目获取
git clone https://github.com/ai-liuys/DH_live.git
2 安装依赖
# windows 研发测试,需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html
3 创建运行环境
# AI 环境,默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate # 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available()) 
4 模型文件解压
cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth
5 数字人模板
python data_preparation YOUR_VIDEO_PATH
6 数字人合成

将上一步生成的模板和视频放在同一个目录下,比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4
6 语音输入合成
python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行,确保无缝和交互式的直播体验。

主要特点
实时性能:数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习:该系统能够从几个例子中学习,以生成逼真的响应。

效果一般,官方提供的案例,测试是通过的,并且代码有点粗糙,项目提供的视频文件合成过程不会有什么问题,我自己采集的视频和音频合成过程就会有视频帧数的报错问题,数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果,并不会进一步使用此项目。

这篇关于2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130614

相关文章

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Qt如何实现文本编辑器光标高亮技术

《Qt如何实现文本编辑器光标高亮技术》这篇文章主要为大家详细介绍了Qt如何实现文本编辑器光标高亮技术,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录实现代码函数作用概述代码详解 + 注释使用 QTextEdit 的高亮技术(重点)总结用到的关键技术点应用场景举例示例优化建议

Java中的登录技术保姆级详细教程

《Java中的登录技术保姆级详细教程》:本文主要介绍Java中登录技术保姆级详细教程的相关资料,在Java中我们可以使用各种技术和框架来实现这些功能,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录1.登录思路2.登录标记1.会话技术2.会话跟踪1.Cookie技术2.Session技术3.令牌技

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Spring AI 实现 STDIO和SSE MCP Server的过程详解

《SpringAI实现STDIO和SSEMCPServer的过程详解》STDIO方式是基于进程间通信,MCPClient和MCPServer运行在同一主机,主要用于本地集成、命令行工具等场景... 目录Spring AI 实现 STDIO和SSE MCP Server1.新建Spring Boot项目2.a