《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》

本文主要是介绍《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ABSTRACT

这篇论文提出了两阶段的网络，用ECAPA-TDNN作为获取说话人向量的网络，实现了很好的性能。第一个阶段的网络只是单单的估计幅度谱，和带噪的相位结合起来得到粗糙的复数谱，第二阶段，一个附属的网络作为一个后处理模块，进一步去除掉残余的噪声和人为干扰的声音。同时，相位信息也被跟着改变了。整个大网络用了四个损失组合成最终的损失。

INTRODUCTION

Personalized speech enhancement (PSE)，也叫做说话人提取，目标是从一个复杂的多个说话人和混响的环境中提取出想要的那个说话人。多用于实时的环境中。这个比赛有两个通道，一个是没有目标说话人作为先验知识的，另一个是作为有目标说话人作为先验知识的。本文选择了通道2，有目标说话人作为先验知识的。选择做实时的语音，就需要考虑到模型的大小，验证的时间，并且不能用到未来的东西。本文提到的算法不仅仅是用来去噪去混响的，还需要考虑到有干扰的说话人。所以考虑到多阶段的优势，本文也采用多阶段的方法实现目标。

本文提到的网络叫做TES-PSE，主要是由两个模块组成，一个是说话人的编码器，提取说话人的特征，另一个是增强的网络。采用了ECAPA-TDNN作为提取说话人特征的网络。先训练出来这个网络，之后再把这个网络的参数冻结，训练第二个增强的网络。使用第一个说话人提取网络，最终会提取到256维度的特征。

增强的网络：第一阶段，只估计幅度谱，最后将估计到的幅度谱和带噪相位结合得到粗粒度的复数谱，复数谱进入到第二个阶段，进一步估计实部和虚部。其中，幅度谱采用了功率谱压缩。因为有混响，有混响存在的情况下，功率谱压缩是比较有用的一种方法。