语音合成（TTS）声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址

本文主要是介绍语音合成（TTS）声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

- - 1. 我们的模型
  - 2. 声音生成模型：AudioLDM
  - 3. 语音合成模型：VoiceLDM

生成式 AI 是最近一年最受关注的课题，可以应用于游戏、虚拟现实等智能交互场景。

1. 我们的模型

由中国科学院计算所和东芝中国研发中心联合发表于AAAI 2024
论文题目：Audio Generation with Multiple Conditional Diffusion Model
论文地址：https://arxiv.org/pdf/2308.11940.pdf

在 AudioLDM 模型的基础上增加三种 Condition （时间、声调、能量）控制，引入了新的训练数据和评价指标，通过实验验证了方法的有效性。

基于文本的音频生成模型存在局限性，因为它们无法包含音频中的所有信息，导致仅依赖文本时的可控性受到限制。为了解决这个问题，我们提出了一种新颖的模型，通过纳入包括内容（时间戳）和风格（音高轮廓和能量轮廓）在内的附加条件作为文本的补充，增强现有预训练文本到音频模型的可控性。这种方法实现了对生成音频的时间顺序、音调和能量的细粒度控制。为了保持生成的多样性，我们采用了可训练的控制条件编码器，该编码器通过大型语言模型和可训练的 Fusion-Net 进行了增强，以编码和融合附加条件，同时保持预训练的文本到音频模型的权重冻结。由于缺乏合适的数据集和评估指标，我们将现有数据集合并成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控音频生成。音频样本和我们的数据集是公开可用的。

2. 声音生成模型：AudioLDM

由萨里大学视觉、语音和信号处理中心 (CVSSP)于2023年发布
题目：AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
论文地址：https://arxiv.org/pdf/2301.12503.pdf
项目地址：https://github.com/haoheliu/AudioLDM

文本转音频（TTA）系统最近因其基于文本描述合成通用音频的能力而受到关注。然而，之前的 TTA 研究由于计算成本较高而限制了生成质量。在本研究中，我们提出了 AudioLDM，这是一种建立在潜在空间上的 TTA 系统，用于从对比语言音频预训练 (CLAP) 潜在空间中学习连续音频表示。预训练的 CLAP 模型使我们能够训练具有音频嵌入的潜在扩散模型 (LDM)，同时在采样期间提供文本嵌入作为条件。通过学习音频信号及其成分的潜在表示而不对跨模态关系进行建模，AudioLDM 在生成质量和计算效率方面都具有优势。 AudioLDM 使用单个 GPU 在 AudioCaps 上进行训练，实现了通过客观和主观指标（例如弗雷切距离）衡量的最先进的 TTA 性能。此外，AudioLDM 是第一个能够以零镜头方式实现各种文本引导音频操作（例如风格转换）的 TTA 系统。

笔记
AudioLDM 生成文本条件音效、人类语音和音乐。
LDM 在单个 GPU 上进行训练，没有文本监督。
AudioLDM 支持零镜头文本引导音频风格转换、修复和超分辨率。

3. 语音合成模型：VoiceLDM

由韩国科学技术院于2023年发布
论文题目：VOICELDM: TEXT-TO-SPEECH WITH ENVIRONMENTAL CONTEXT
论文地址：https://arxiv.org/pdf/2309.13664.pdf
项目地址：https://github.com/glory20h/VoiceLDM

论文提出了 VoiceLDM，这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型：描述提示和内容提示。前者提供有关音频整体环境背景的信息，而后者则传达语言内容。为了实现这一目标，我们采用基于diffusion model的文本到音频（TTA）模型，并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper，VoiceLDM 可以在大量真实世界音频上进行训练，而无需手动注释或转录。此外，采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。实验结果表明，VoiceLDM 能够生成与两种输入条件均吻合的可信音频，甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外，还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能，并表明它取得了有竞争力的结果。

这篇关于语音合成（TTS）声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

语音合成（TTS）声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址

文章目录

1. 我们的模型

2. 声音生成模型：AudioLDM

3. 语音合成模型：VoiceLDM

相关文章

Python使用Tenacity一行代码实现自动重试详解

最新Spring Security的基于内存用户认证方式

springboot自定义注解RateLimiter限流注解技术文档详解

Python实现PDF按页分割的技术指南

Python实现MQTT通信的示例代码

MySQL进行数据库审计的详细步骤和示例代码

python生成随机唯一id的几种实现方法

MySQL 迁移至 Doris 最佳实践方案(最新整理)

SpringSecurity整合redission序列化问题小结(最新整理)

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

语音合成（TTS） 声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址

文章目录

1. 我们的模型

2. 声音生成模型：AudioLDM

3. 语音合成模型：VoiceLDM

相关文章

语音合成（TTS）声音生成（TTA）最新技术 - 2024- 附论文地址和代码地址