PortaSpeech CLAPSpeech: 提升TTS的韵律自然度音质

2023-10-28 15:20

本文主要是介绍PortaSpeech CLAPSpeech: 提升TTS的韵律自然度音质,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

会议:2021 NIPS
作者:ren yi,Jinglin Liu
单位:浙大

文章目录

  • PortaSpeech
    • abstract
    • intro
    • method
      • Linguistic Encoder with Mixture Alignment
      • Variational Generator with Enhanced Prior
      • Flow-based Post-Net
      • Training and Inference
    • Experiments
  • CLAPSpeech
    • abstract
    • method
    • experiment

PortaSpeech

abstract

  • 非自回归TTS——
    • 基于VAE:善于建模长时语义特征(比如韵律),但是生成结果模糊、不自然;
    • normalizing flow:善于建模freq-bin细节,但是参数量少的时候表现不好。
  • motivation:使用少的数据量,生成情感、韵律变化丰富的语音。使用VAE+F
    (1)建模韵律和mel谱细节, we adopt a lightweight VAE with an enhanced prior followed by a flow-based post-net with strong conditional inputs as the main architecture.
    (2)为了压缩模型参数:introduce the grouped parameter sharing mechanism to the affine coupling layers in the post-net.
    (3)为了改善语音的表现力,减少对text和语音精确对齐的依赖:引入linguistic encoder,进行hard word-level和soft phoneme-level的对齐,也精确的提取了字级别的情感;
  • 结果:相比于FastSpeech2,4x模型压缩,3x运行内存减少,

intro

  • VAE可以增强合成语音的表现力,但是生成谱over-smooth
  • flow的应用:Flow-TTS 将fastspeech中的decoder用glow替代,并且用一个单独的网络学习对齐;Glow-TTS引入normalize flow+动态规划单向对齐,实现快速、多样、可控的合成。这种方法生成谱的质量比较高,但是实验发现需要的数据量比较大,如果数据量少,生成质量明显下降。

method

在这里插入图片描述
total_loss = mel_loss + kl_loss + MLE loss + dur_loss + align_loss

Linguistic Encoder with Mixture Alignment

在这里插入图片描述

  • FastSpeech使用对齐工具获得 phoneme-level hard alignment,但是由于一些音素边界天然的模糊,因此phn-level的对齐结果会有一定的误差,然后这些误差会影响duration predictor,进而传导到生成语音的韵律。因此本文使用soft alignment in phoneme level 以及hard alignment in word level.
  • 音素编码得到隐变量 H p H_p Hp,根据分字边界对同一个字的音素进行average pooling,得到字级别的隐变量 H w H_w Hw,根据duration predictor预测的word duration对word embedding进行扩帧。duration predictor是预测每个phn的时长,然后将属于一个word的phn duration累加。
  • H w H_w Hw作为Q, H p H_p Hp作为key,value, 寻找对齐的word-to-phn attention, H p H_p Hp H w H_w Hw送入attention之前都加上word的相对位置编码信息;以找到一个单向的、对角对齐。
  • 优点:避免phn对齐不准确的失误,同时保留了细粒度,soft,close-to-diagonal text-to-spectrogram alignment。

Variational Generator with Enhanced Prior

在这里插入图片描述

  • 本模块本质是利用文本作为条件监督,从mel中提取出韵律相关的表征
    -使用轻量级的结构实现有表现力、多样的语音生成,因此采用VAE结构作为mel-spec generator。传统的VAE使用高斯作为先验,给后验分布很强的约束,从而限制了decoder的多样性和生成能力。为了增强先验分布,引入small volume-preserving normalizing flow,用一系列K可逆映射将简单的高斯分布转换为复杂的分布,此变换后的复杂分布作为VAE先验。
  • 训练阶段:
    • mel+txt condition输入encoder,得到 μ , σ \mu,\sigma μσ分布,重采样得到 z z z,送入decoder(此处起名不太合适),应该就是几层非线性变换。
    • 同时为了训练VP-Flow, μ q \mu_q μq, σ q \sigma_q σq 通过VP-Flow变成标准正态分布,并求KL loss;
  • inference阶段,没有ref-mel,VP-Flow把一个标准正态分布的样本重采样为 z p z_p zp,然后送给decoder。
  • 说明:送给decoder的 z p z_p zp不再是标准高斯的重采样,训练阶段是encoder输出重采样,inference阶段是标准高斯经过flow变换成复杂分布之后的采样。

Flow-based Post-Net

在这里插入图片描述

  • Flow可以生成更真实的mel-spec,但是模型参数量很大。本文的flow作为postnet,不需要关注文本和韵律信息,只需要关注mel-spec的细节。并且引入参数共享的想法,降低对flow建模的参数要求。
  • 训练阶段:postnet将真实的mel-spec映射到latent prior distribution (isotropic multivariate Gaussian,各向同性多元高斯),并计算对数似然估计;
  • 预测阶段:从latent prior distribution中采样,反向送入postnet,得到高保真的mel-spec
  • postnet的条件输入有文本&韵律的信息,所以网络只关注在mel-spec细节的建模;降低了模型建模难度(参数量不需要那么大);为了进一步减少参数量,在affine coupling layers中引入grouped parameter sharing mechanism
  • 参数共享的想法借鉴了Nanoflow的文章,做出改进:
    • 移除flow indication embedding以简化模型:不同flow step的unshared conditional projection layer可以帮助模型确定当前step的位置;
    • 一个group中flow steps的参数共享,而不是所有flow step的参数共享:不需要改变模型结构就可以更好的调整可训练的参数。

Training and Inference

training stage

  • duration loss L d u r = M S E 【 l o g ( g t − w o r d − d u r ) , l o g ( p r e d − w o r d − d u r ) 】 L_{dur} = MSE【log(gt-word-dur), log(pred-word-dur)】 Ldur=MSElog(gtworddur)log(predworddur)
  • VAE的重建loss L V G = L 【 g t − m e l , p r e d − m e l 】 L_{VG}=L【gt-mel, pred-mel】 LVG=Lgtmelpredmel
  • VAE的kl loss L K L L_{KL} LKL
  • postnet的 L P N L_{PN} LPN negative log-likelihood

inference stage

  • text seq(phn+word 边界)——【linguistic encoder】预测word duration + 使用mix align做hidden state扩帧—— linguistic emb H L H_L HL——【VAE】 根据vae-encoder输出采样+ H L H_L HL,送给vae-decoder生成粗粒度的mel-spec M c M_c Mc——【postnet】根据 H L H_L HL和重采样的分布,生成细粒度的mel-spec M f M_f Mf

Experiments

  • LJSpeech作为训练&测试数据集
  • NAR-TTS基础验证实验
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

CLAPSpeech

abstract

在这里插入图片描述

  • 作者认为韵律和上下文文本有关系,传统的基于BERT的改进,只停留在文本层面的上下文建模;VAE主要在speech空间。因此仿照CLIP,使用对比学习,训练text-prosody的映射,建立一个共享空间,提取的embedding可以直接plugin的方式,加入到PortaSpeech中,作为输入端的韵律补充。

method

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

experiment

  • 基于ASR数据训练CLAP,得到的CLAP加入TTS模型测试;
    在这里插入图片描述

这篇关于PortaSpeech CLAPSpeech: 提升TTS的韵律自然度音质的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294130

相关文章

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

MySQL中的交叉连接、自然连接和内连接查询详解

《MySQL中的交叉连接、自然连接和内连接查询详解》:本文主要介绍MySQL中的交叉连接、自然连接和内连接查询,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、引入二、交php叉连接(cross join)三、自然连接(naturalandroid join)四

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

使用DeepSeek API 结合VSCode提升开发效率

《使用DeepSeekAPI结合VSCode提升开发效率》:本文主要介绍DeepSeekAPI与VisualStudioCode(VSCode)结合使用,以提升软件开发效率,具有一定的参考价值... 目录引言准备工作安装必要的 VSCode 扩展配置 DeepSeek API1. 创建 API 请求文件2.

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

无线领夹麦克风什么牌子好用?揭秘领夹麦克风哪个牌子音质好!

随着短视频行业的星期,围绕着直播和视频拍摄的电子数码类产品也迎来了热销不减的高增长,其中除了数码相机外,最为重要的麦克风也得到了日益增长的高需求,尤其是无线领夹麦克风,近几年可谓是异常火爆。别看小小的一对无线麦克风,它对于视频拍摄的音质起到了极为关键的作用。 不过目前市面上的麦克风品牌种类多到让人眼花缭乱,盲目挑选的话容易踩雷,那么无线领夹麦克风什么牌子好用?今天就给大家推荐几款音质好的