ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复

本文主要是介绍ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatTTS增强版最新版本已经发布,本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能,并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。

视频版本

【ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复】 https://www.bilibili.com/video/BV17T421e76w/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

37b5fdae63cc1122302a0aa6f1c114d4.png

更新内容

批量txt

新增支持多个txt文本批量导入,会针对每个txt文本进行处理。

3755762243cdb3ae1053b2ac86dd3daa.png

听取大家的建议,批量处理后的txt会按照文件名来保存。

导出路径为:output_audio/你的txt名/

d3cb5ee04d7e5aa30e909216a5fe9315.png

每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。

导出的完整的音频路径为:output_audio/你的txt名/合并/

导出的音频切片路径为:output_audio/你的txt名/切片/

导出的增强音频切片路径为:output_audio/你的txt名/增强切片/

9caf434bd66e3802bc51b2fd3414654a.png

SRT导出

批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。

46d27627d1aba2bb7388b6ef3659aab5.png

srt会导出路径:output_audio/你的txt名/你的txt名.srt

6ac6912b18f43c4e3c2a6c4a8b60003a.png

srt文本内容

eda6f43f4900e757f7f8b6f324ae56e4.png

这里说下,srt某些情况下会有误差,需检查下时间戳。

数字转换

由于ChatTTS不能很好的去朗读数字,这里做了一个转换。

2ee1d08097e975e4760ea51c40e14376.png

比如这句话:我有10块4090显卡,今天出门丢了1块,很难受,今天是2024年。

34100bd6d6564ceaf5ff2c25eddfbc0d.png

读出来就是:

(音频)

开启数字转换后:

(音频)

这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好的去识别,这里最好的办法就是加空格

修改后的文字:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

e31a260ef666cea6b0963409aa53ef76.png

在你想要单独读的数字组合里添加空格隔开。再开启数字转换后的效果:

(音频)

语速调整

增加了语速调节。默认值为0。最高是10,建议调到5或者6,10的话会有奇怪的英文读音混进去。

cb774ec49bb8aa85f5b1bdcfbea73cd6.png

口语化调整

这里对这个参数的理解就是口语化,或者是说话的自然程度。

fe161160ac9cf686c4dd46c61641ebfc.png

比如还是刚才那句:我有10块4 0 9 0显卡,今天出门丢了1块,很难受,今天是2 0 2 4年。

其他参数相同,oral为0的效果:

(音频效果)

oral为5的效果:

(音频效果)

可以听到,在oral为5的情况下自动添加了:就、啊等语气或者连接词来让音频更加自然。

笑声调整

控制音频的笑声程度。

6c73ddd404f965947a2528b871b50608.png

当然你也可以在文字中输入[laugh]来手动添加笑声。

e831e777b4efe4db4be86457cb5221d2.png

生成的效果:

(音频效果)

停顿调整

ddf19404b6487e88bb45484ea91ade77.png

停顿为0

(音频效果)

停顿为4

(音频效果)

这个参数也可以在文本中输入[uv_break]来手动添加停顿。

08c71674f2b3f451bfab1f3ee818084e.png

(音频效果)

问题修复

uv_break问题

首先说下上次最大的问题,好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉,那是个我漏掉的bug。

这个版本我针对这个问题做了调整,大家可以试下。

如果还有这个问题可以将break调整为0,关闭提炼文本尝试下。

f0867328fa9dd6edd45e2d41c1546a8f.png

380adda7307d14aba8fed7ae7c47936d.png

IP端口问题

V1版本的ip和端口号是固定的,有些朋友电脑上8080端口是禁用的,造成访问不了网页的问题,或者是开了代理进不去的问题。

这个版本默认ip是127.0.0.1,端口号是自动获取本机开放空闲的端口。

如果你想要自定义ip或端口号,可在整合包根目录下找到config.ini文件。

0ed4f6669d6bb5cf54e0635140e4b76f.png

修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。

ip和端口修改为你想要设定的值即可。

f869d07bf1220f35d8084a3809417183.png

实验性选项

51092df61729600d6a0d5ccdafd4f8bb.png

这里是开发中的一个测试选项,还不完善。可自行测试音色固定程度,如果开启后生成的结果无效果,或异常,关掉即可。

⚠️已知的是开启后会导致N卡用户音频增强过程变得极慢!!!慎重开启

配置要求

以下是整合包运行所需配置

WIN

  • Windwos10/11操作系统
  • 支持CPU/GPU

MAC

  • Apple Silicon M系列芯片、Intel 芯片
  • MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友,云端镜像一键部署。

云端一键部署镜像

关于显存,最低4G显存(不开启音频增强的情况下)

Mac 由于cuda原因目前只支持cpu进行推理。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV2】关键字获取整合包。

c9d252d6c546419798a870adf532fec3.png

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

写在最后

还有很多朋友的建议,比如增加标点符号分割、克隆用户音色等,这些想法都很不错,我也会在后续的版本中进行更新。

最后非常感谢大家对这个项目的支持。如果您有更多的想法或建议,欢迎通过私信或在评论区留下你们的意见。

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

这篇关于ChatTTS增强版V2,批量导出srt,语速控制,情感控制,支持朗读数字,问题修复的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1044418

相关文章

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

解决RocketMQ的幂等性问题

《解决RocketMQ的幂等性问题》重复消费因调用链路长、消息发送超时或消费者故障导致,通过生产者消息查询、Redis缓存及消费者唯一主键可以确保幂等性,避免重复处理,本文主要介绍了解决RocketM... 目录造成重复消费的原因解决方法生产者端消费者端代码实现造成重复消费的原因当系统的调用链路比较长的时

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

kkFileView启动报错:报错2003端口占用的问题及解决

《kkFileView启动报错:报错2003端口占用的问题及解决》kkFileView启动报错因office组件2003端口未关闭,解决:查杀占用端口的进程,终止Java进程,使用shutdown.s... 目录原因解决总结kkFileViewjavascript启动报错启动office组件失败,请检查of

电脑提示d3dx11_43.dll缺失怎么办? DLL文件丢失的多种修复教程

《电脑提示d3dx11_43.dll缺失怎么办?DLL文件丢失的多种修复教程》在使用电脑玩游戏或运行某些图形处理软件时,有时会遇到系统提示“d3dx11_43.dll缺失”的错误,下面我们就来分享超... 在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是缺失某个dll文件。其中,d3dx11_4

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

游戏闪退弹窗提示找不到storm.dll文件怎么办? Stormdll文件损坏修复技巧

《游戏闪退弹窗提示找不到storm.dll文件怎么办?Stormdll文件损坏修复技巧》DLL文件丢失或损坏会导致软件无法正常运行,例如我们在电脑上运行软件或游戏时会得到以下提示:storm.dll... 很多玩家在打开游戏时,突然弹出“找不到storm.dll文件”的提示框,随后游戏直接闪退,这通常是由于

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

linux批量替换文件内容的实现方式

《linux批量替换文件内容的实现方式》本文总结了Linux中批量替换文件内容的几种方法,包括使用sed替换文件夹内所有文件、单个文件内容及逐行字符串,强调使用反引号和绝对路径,并分享个人经验供参考... 目录一、linux批量替换文件内容 二、替换文件内所有匹配的字符串 三、替换每一行中全部str1为st

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at