2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇

2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

本文主要是介绍2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

2024-09-01 周日杭州风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审，前几天摔伤的地方也逐渐愈合了，不过现在的我多少还是有点叛逆的，天天洗澡，等伤好了一定要去泡温泉。

应用实践

1 项目获取

git clone https://github.com/ai-liuys/DH_live.git

2 安装依赖

# windows 研发测试，需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html

3 创建运行环境

# AI 环境，默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate # 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available())

4 模型文件解压

cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth

5 数字人模板

python data_preparation YOUR_VIDEO_PATH

6 数字人合成

将上一步生成的模板和视频放在同一个目录下，比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4

6 语音输入合成

python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行，确保无缝和交互式的直播体验。

主要特点
实时性能：数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习：该系统能够从几个例子中学习，以生成逼真的响应。

效果一般，官方提供的案例，测试是通过的，并且代码有点粗糙，项目提供的视频文件合成过程不会有什么问题，我自己采集的视频和音频合成过程就会有视频帧数的报错问题，数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果，并不会进一步使用此项目。

这篇关于2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

摘要

应用实践

1 项目获取

2 安装依赖

3 创建运行环境

4 模型文件解压

5 数字人模板

6 数字人合成

6 语音输入合成

总结

相关文章

Java中的Schema校验技术与实践示例详解

Python Excel 通用筛选函数的实现

Java+AI驱动实现PDF文件数据提取与解析

Python中高级文本模式匹配与查找技术指南

基于Python实现数字限制在指定范围内的五种方式

springboot自定义注解RateLimiter限流注解技术文档详解

Spring AI使用tool Calling和MCP的示例详解

Python实现PDF按页分割的技术指南

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

MyBatis-Plus通用中等、大量数据分批查询和处理方法