《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》

本文主要是介绍《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ABSTRACT

        这篇论文提出了两阶段的网络,用ECAPA-TDNN作为获取说话人向量的网络,实现了很好的性能。第一个阶段的网络只是单单的估计幅度谱,和带噪的相位结合起来得到粗糙的复数谱,第二阶段,一个附属的网络作为一个后处理模块,进一步去除掉残余的噪声和人为干扰的声音。同时,相位信息也被跟着改变了。整个大网络用了四个损失组合成最终的损失。

INTRODUCTION

       Personalized speech enhancement (PSE),也叫做说话人提取,目标是从一个复杂的多个说话人和混响的环境中提取出想要的那个说话人。多用于实时的环境中。这个比赛有两个通道,一个是没有目标说话人作为先验知识的,另一个是作为有目标说话人作为先验知识的。本文选择了通道2,有目标说话人作为先验知识的。选择做实时的语音,就需要考虑到模型的大小,验证的时间,并且不能用到未来的东西。本文提到的算法不仅仅是用来去噪去混响的,还需要考虑到有干扰的说话人。所以考虑到多阶段的优势,本文也采用多阶段的方法实现目标。

      本文提到的网络叫做TES-PSE,主要是由两个模块组成,一个是说话人的编码器,提取说话人的特征,另一个是增强的网络。采用了ECAPA-TDNN作为提取说话人特征的网络。先训练出来这个网络,之后再把这个网络的参数冻结,训练第二个增强的网络。使用第一个说话人提取网络,最终会提取到256维度的特征。

      增强的网络:第一阶段,只估计幅度谱,最后将估计到的幅度谱和带噪相位结合得到粗粒度的复数谱,复数谱进入到第二个阶段,进一步估计实部和虚部。其中,幅度谱采用了功率谱压缩。因为有混响,有混响存在的情况下,功率谱压缩是比较有用的一种方法。

第一阶段和第二阶段的网络和下图类似:

ECAPA-TDNN:

res2block:

损失函数采用了三种:SISDR,一个对称的函数,一个幅度谱的函数。还有一个实虚部的函数。

实验数据用的格式DNS挑战赛的数据集。训练的数据,在提取说话人那个网络里面,用到的数据是VoxCelsb2语料库,在增强的网络里面,用到的数据集是DNS数据集。测试集用到三种,第一种是模拟的数据集,用到的是KING-ASR-215。第二种是官方给到的开发集。第三种是官方给到的黑盒测试集。

用到了一些数据增强:

把原始语音随机选取一部分填充为0;

用时频域的掩码应用到输入的频谱上;

增强一种额外的噪声;

增强一种额外的混响;

速度扰动,范围在(0.9,1.1);

同时增强噪声和混响;

实验的结果:

这篇关于《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/308497

相关文章

Linux云服务器手动配置DNS的方法步骤

《Linux云服务器手动配置DNS的方法步骤》在Linux云服务器上手动配置DNS(域名系统)是确保服务器能够正常解析域名的重要步骤,以下是详细的配置方法,包括系统文件的修改和常见问题的解决方案,需要... 目录1. 为什么需要手动配置 DNS?2. 手动配置 DNS 的方法方法 1:修改 /etc/res

DNS查询的利器! linux的dig命令基本用法详解

《DNS查询的利器!linux的dig命令基本用法详解》dig命令可以查询各种类型DNS记录信息,下面我们将通过实际示例和dig命令常用参数来详细说明如何使用dig实用程序... dig(Domain Information Groper)是一款功能强大的 linux 命令行实用程序,通过查询名称服务器并输

关于DNS域名解析服务

《关于DNS域名解析服务》:本文主要介绍关于DNS域名解析服务,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录DNS系统的作用及类型DNS使用的协议及端口号DNS系统的分布式数据结构DNS的分布式互联网解析库域名体系结构两种查询方式DNS服务器类型统计构建DNS域

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

Usb Audio Device Descriptor(10) Hid Device

对于 Standard Interface Descriptor, 当 bInterfaceClass=0x03时,即为HID设备。Standard Interface Descriptor如下 struct usb_standard_interface_descriptor{U8 bLength; /*Size of this descriptor in bytes*/U8 bDescrip

DNS协议基础笔记

1.定义 DNS(Domain Name System,域名系统)是互联网的一项核心服务,它作为将域名和 IP 地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。 2.域名解析过程 当用户在浏览器中输入一个域名,浏览器首先会检查自己的缓存中是否有该域名对应的 IP 地址。本地 DNS 服务器收到查询请求后,首先会检查自己的缓存中是否有该域名对应的 IP 地址。根域名服务器收到查询请