用于目标说话人提取的统一视听线索

2024-08-28 19:44

本文主要是介绍用于目标说话人提取的统一视听线索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、任务

提出了一个统一的TSE网络,称为Uni-Net,它采用分而治之的策略将音频和嘴唇线索融合到不同的网络中,利用每个线索的独特信息。从各种线索中提取的语音作为先验信息,通过后处理网络进一步细化。

二、动机

语音注册的方法会面临一些问题,如年龄和情绪会改变说话人的声音特征。此外,由于混合物中相似的语音特性,性能也会下降。

三、挑战

音频线索反映了说话者独特的声音属性,而视觉线索与目标语音在时间上是同步的。此外,音频线索是时不变的,而视觉线索是时变的,导致两者之间的差异。因此,在混合语音的共享网络中集成音频和视觉线索并不是最佳选择。这些线索会相互干扰,严重阻碍了性能的提高。

四、方法

1.总体架构

在这里插入图片描述
提出的框架由三个部分组成:基于音频线索的提取子网(ACENet)、基于视觉线索的提取子网(VCENet)和后处理网络(PPNet)。

2.tes网络

在这里插入图片描述
对于视觉提取器,我们使用了一个3D卷积层,然后是一个18层的ResNet和一个时间卷积网络(TCN)。音频提取器采用长短期记忆(LSTM)单元和线性层的组合。
TCN包含一个卷积层、一个Relu激活层和一个层归一化层。
TF-GridNet开发了ACENet和VCENet,它们代表了最先进的语音分离性能。TF-GridNet在STFT域内训练,使用二维卷积和层归一化对复频谱进行编码。每个TF-Grid块包括三个主要模块:帧内频谱模块、子带时间模块和全带自注意模块。
帧内频谱模块将输入R (D×T ×F)解释为T个不同的序列在T上做,并部署BLSTM来捕获每帧的全频带和频谱信息。
子带时间模块将输入R D×T ×F视为F个单独的序列,利用BLSTM捕获每个频率内的时间动态。
全频带自注意模块中,输入被重塑为大小为T × (F × D)的表示,其中多头自注意被用于建模全局依赖关系。

3. 融合网络

在这里插入图片描述
实现了 in-place 卷积作为后处理网络,该架构包括三个主要组件:Inplace Encoder、Frequency-wise LSTM 和 Inplace Decoder。Inplace Encoder 和 Inplace Decoder 都采用了六层 in-place 卷积操作。in-place 卷积采用步幅为 1,从而保留了频谱细节,并促进了对通道间相关性的分析。

4.损失函数

在这里插入图片描述
使用尺度不变的信噪比(硅信噪比)[23]作为损失函数

五、实验评价

1.数据集

VoxCeleb2数据集,选择了48,000个包含800个说话者的话语进行训练,并从118个不同的说话者中选择了36,237个话语进行测试,确保两个集之间没有说话者重叠。 干扰语音与目标语音合并,使用随机的信噪比(SNR)在-10dB到10db之间变化。

2.消融实验

在这里插入图片描述

3.客观评价

作者 提出的框架显著优于SpeakerBeam,在SISNRi、SDRi、PESQ和STOI方面分别提高了1.72 dB、1.63 dB、0.46 dB和3.3%。
在这里插入图片描述
视觉线索被遮挡时,作者进一步评估了提出的框架和基线的鲁棒性。
在这里插入图片描述
不同遮挡程度下的对比。

在这里插入图片描述

4.主观评价


六、结论

作者提出了一个统一的目标说话人提取框架,以克服音频和视觉线索之间的冲突。具体来说,作者利用分而治之的方法,将音频和视觉线索集成到不同的子网中,以利用每个线索提供的独特信息。还引入了一种后处理网络,进一步提取目标语音并抑制干扰。实验证明,作者的网络架构与其他具有竞争力的基线相比,该方法具有优越的性能。

七、知识小结

这篇关于用于目标说话人提取的统一视听线索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115708

相关文章

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

统一返回JsonResult踩坑的记录

《统一返回JsonResult踩坑的记录》:本文主要介绍统一返回JsonResult踩坑的记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录统一返回jsonResult踩坑定义了一个统一返回类在使用时,JsonResult没有get/set方法时响应总结统一返回

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

Python对PDF书签进行添加,修改提取和删除操作

《Python对PDF书签进行添加,修改提取和删除操作》PDF书签是PDF文件中的导航工具,通常包含一个标题和一个跳转位置,本教程将详细介绍如何使用Python对PDF文件中的书签进行操作... 目录简介使用工具python 向 PDF 添加书签添加书签添加嵌套书签Python 修改 PDF 书签Pytho

gradle第三方Jar包依赖统一管理方式

《gradle第三方Jar包依赖统一管理方式》:本文主要介绍gradle第三方Jar包依赖统一管理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景实现1.顶层模块build.gradle添加依赖管理插件2.顶层模块build.gradle添加所有管理依赖包

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使