关于Speech processing Universal PERformance Benchmark (SUPERB)基准测试及衍生版本

本文主要是介绍关于Speech processing Universal PERformance Benchmark (SUPERB)基准测试及衍生版本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

      Speech processing Universal PERformance Benchmark (SUPERB)是由台湾大学、麻省理工大学,卡耐基梅隆大学和 Meta 公司联合提出的评测数据集,其中包含了13项语音理解任务,旨在全面评估模型在语音处理领域的表现。这些任务涵盖了语音信号的各个方面,包括语言学、说话人、韵律和语义元素。

     具体来说,SUPERB包含以下13项任务:Speaker Identification(说话人识别)、Automatic Speaker Verification(说话人验证)、Speaker Diarization(说话人日志)、Phoneme Recognition(音素识别)、Automatic Speech Recognition(语音识别)、Keyword Spotting(关键词检测)、Query by Example Spoken Term Detection(QbE)、Intent Classification(意图分类)、Slot Filling(对话理解槽填充)、Emotion Recognition(情绪识别)、Speech Separation(语音分离)、Speech Enhancement(语音增强)和 Speech Translation(语音翻译)

1、衍生版本

SUPERB-SG是SUPERB的一个扩展,它专注于评估预训练模型在语义和生成能力方面的表现,通过增加任务多样性和难度来实现这一点。这表明,通过使用轻量级方法,可以测试预训练模型在不同类型的任务中的表现,这些任务涵盖了从数据域和质量的变化。

ML-SUPERB是SUPERB的一个多语言版本,它覆盖了154种语言,并考虑到自动语音识别和语言识别,而不是仅限于英语。这表明,尽管多语言模型通常不比单一语言模型表现得更好,但在某些任务上,它们仍然可以提供有用的表示。

Dynamic-SuperB则是一个动态、协作和综合指导调整的基准,旨在构建能够利用指令调整执行多个任务的通用语音模型。这个基准通过结合33个任务和22个数据集来实现,覆盖了广泛的语音任务,并提出了几种方法来建立基准基线。

2、评估指标

Phoneme Recognition (PR) - 评估指标是电话错误率(Phone Error Rate, PER),旨在将话语转录为最小的内容单元。

Automatic Speech Recognition (ASR) - 评估指标是词错误率(Word Error Rate, WER),目的是将话语转录为单词。

Keyword Spotting (KS) - 评估指标是准确率(Accuracy, ACC),任务是检测预注册的关键词。

Query by Example Spoken Term Detection (QbE) - 评估指标是最大术语加权值(Maximum Term Weighted Value, MTWV),用于在音频数据库中通过二进制区分查询和文档是否匹配。

Speaker Identification (SID) - 评估指标是准确率(Accuracy, ACC),任务是将话语分类为其说话者身份的多类分类。

Automatic Speaker Verification (ASV) - 评估指标是等错误率(Equal Error Rate, EER),验证一对话语的说话者是否匹配。

Speaker Diarization (SD) - 评估指标是分诊错误率(Diarization Error Rate, DER),预测每个时间戳的说话者。

Intent Classification (IC) - 评估指标是准确率(Accuracy, ACC),将话语分类为预定义的类别以确定说话者的意图。

Slot Filling (SF) - 评估指标包括槽类型F1分数和槽值字符错误率(Character Error Rate, CER),从话语中预测一系列语义槽类型。

Emotion Recognition (ER) - 评估指标是准确率(Accuracy, ACC),预测每个话语的情绪类别。

3、SUPERB-SG-专注于更难的语义和生成任务

3.1 SUPERB-SG中新增加的任务

3.1.1 Speech Translation

语音翻译(ST)用它来评估SSL模型的语义能力,并且研究它们如何提升翻译任务的能力。我们使用CoVoST En → De作为训练集,并按照官方的切分方法分为训练集、测试集和验证集,同时删除所有含有"REMOVE"的样本,其训练集、验证集和测试集分别包括425.8小时、25.9小时和24.5小时的数据。对于文本,我们保持原始的大小写、规范化标点符号,并建立具有100%训练集覆盖率的字符语料库。我们使用sacreBLEU作为评价标准,它是一个大小写敏感且去符号化的BLEU。我们的下游模型使用一个三层Transformer的编码器-解码器架构,每层的隐藏维度为512。并且还使用了一个卷积子采样器(convolutional subsampler)来减少输入的序列长度,然后再将其送入编码器。我们使用0.1的概率对我们的模型进行标签平滑的训练。

3.1.2 Out-of-Domain ASR

虽然SUPERB中包含了ASR,但它只在英语语料库LibriSpeech上检验了SSL模型。因此,我们引入了域外ASR(OOD-ASR),旨在评估模型的跨语言能力,以及域外场景。OOD-ASR任务被分为跨语言任务(cross-lingual task)和自发语音任务(spontaneous speech task)。对于跨语言任务,我们从Common Voice 7.0中选取墨西哥西班牙语(es)、普通话(zh)和阿拉伯语(ar)子集,其分别包含21.5、31.2和30.7小时的训练数据,1.2小时、14.4小时和12.24小时大小的验证数据,0.6小时、15.3小时和12.5小时大小的测试数据。对于自发语音任务(spon),我们使用了Santa Barbara Corpus of Spoken American English (SBCSAE) ,其中包括60个不同主题的对话,16.7小时的数据。验证和测试集的大小分别为1.6小时和2.2小时。除普通话使用字符错误率(CER)作为标准之外,其余任务我们使用单词错误率(WER)作为衡量标准。错误率是所有子任务错误率的平均数。ASR模型是一个2层的BLSTM,其隐藏状态维度为1024。训练目标是CTC(Connectionist Temporal Classification)损失。在推理过程中,我们使用CTC贪婪解码,不对语言模型进行重新评分,来简化过程并突出所学到的声学表征的影响。

3.1.3 Voice Conversion

对于语音转换(VC),我们考虑在任意对一(A2O)设置下的VCC2020的内语言VC任务。A2O VC的目的是将任意说话人的语音转换成预定的目标说话人的语音。我们用这个任务来评估说话人的可转移性以及SSL模型的可推广性。我们使用目标说话人的60个时间跨度为5分钟的语料用于训练,25个时间跨度为2分钟的语料用于测试,没有使用验证集。我们使用常用的MCD(mel-cepstrum distortion)、单词错误率(WER)和来自现成的ASR和ASV模型的声纹识别(ASV)接受率作为评价指标。下游模型依赖目标说话人的方式从上游表征中重构声学特征。在转换阶段,将上游提取的表征作为输入,由模型生成转换后的声学特征,然后将其发送到神经声码器合成转换后的波形。我们采用Tacotron2作为下游模型,Tacotron2是一个由卷积层和LSTM层组成的自回归网络。使用Hifi-GAN作为神经声码器。

3.1.4 Speech Separation

语音分离(SS)是将目标语音从背景干扰中分离出来。它是语音处理中的一个重要步骤,尤其是对于嘈杂和多语者的场景十分重要。我们在一个由LibriSpeech和WHAM!噪声模拟的数据集上研究语音分离问题。我们使用包含2个发言人的16kHz版本的数据集,并专注于mix_clean条件。训练和评估集包含43.3和4.2小时的模拟语音,这些语音来自LibriSpeech的train-clean-100和test-clean。这个任务是用来评估SSL模型在输入为混合声学信号时的生成能力。我们使用标度不变的信号失真率改善情况(SI-SDRi)作为评价指标。对于下游模型,我们了使用3层的BLSTM模型,每个方向的维度为896,来预测每个说话人的短时傅里叶变换(STFT)掩码,并使用反短时傅里叶变换(iSTFT)将预测结果转换回时域。并且进行了PIT(Permutation invariant training),以优化预测掩码和理想非负相位敏感掩码(INPSM)之间的均方误差。由于跨度大小的限制和计算成本,我们选择了频域方法而不是基于时域的方法。

3.1.5 Speech Enhancement

语音增强(SE)是指从退化的语音信号中去除背景噪声的任务,其目的是提高信号的感知质量和可懂度。我们使用这个任务评估模型在嘈杂条件下的生成能力。训练、验证和测试集分别包含8.8、0.6和0.6小时的语音。评估指标为语音质量感知评估(PESQ)和短时客观可懂度(STOI)。一个类似于语音分离任务的3层BLSTM模型被训练来预测干净信号的光谱掩码。预测的掩码和INPSM之间的均方误差被作为目标。

3.2 15个上游模型基本属性

15个上游模型有着不同的架构、规模和学习目标。一些模型还使用了矢量量化,这有一个额外的好处,就是信号压缩。下图展示了上游模型的详细属性

4、ML-SUPERB-支持多语言语音处理

SUPERB通过其多语言版本ML-SUPERB支持多语言语音处理。ML-SUPERB是一个扩展的基准测试,旨在评估跨语言语音表示学习的能力。这个挑战赛包括了54个语言数据集,涵盖了154种语言。这表明SUPERB能够支持广泛的语言范围,从而使得研究人员可以在多种语言环境下比较不同语音相关任务的性能。

总结来说,SUPERB通过其多语言版本ML-SUPERB支持包括英语、法语、德语、阿拉伯语中文以及其他154种语言在内的多语言语音处理。

更多信息可以参考官网:https://multilingual.superbbenchmark.org/

5、Dynamic-SUPERB-支持多语言语音处理

Dynamic-SUPERB是一个动态的协作基准测试,旨在构建通用语音模型,能够利用指令调整以零触发的方式执行多项任务。它为研究人员和开发人员提供了一个平台来评估和比较各种语音处理任务中的不同模型。   

官方仓库包含了55个评估实例,这些实例是通过结合33个任务和22个数据集创建的,涵盖了广泛的维度,为评估提供了全面的平台

下载地址:https://github.com/dynamic-superb/dynamic-superb

这篇关于关于Speech processing Universal PERformance Benchmark (SUPERB)基准测试及衍生版本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/983000

相关文章

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Ubuntu如何升级Python版本

《Ubuntu如何升级Python版本》Ubuntu22.04Docker中,安装Python3.11后,使用update-alternatives设置为默认版本,最后用python3-V验证... 目China编程录问题描述前提环境解决方法总结问题描述Ubuntu22.04系统自带python3.10,想升级

更改linux系统的默认Python版本方式

《更改linux系统的默认Python版本方式》通过删除原Python软链接并创建指向python3.6的新链接,可切换系统默认Python版本,需注意版本冲突、环境混乱及维护问题,建议使用pyenv... 目录更改系统的默认python版本软链接软链接的特点创建软链接的命令使用场景注意事项总结更改系统的默

Linux升级或者切换python版本实现方式

《Linux升级或者切换python版本实现方式》本文介绍在Ubuntu/Debian系统升级Python至3.11或更高版本的方法,通过查看版本列表并选择新版本进行全局修改,需注意自动与手动模式的选... 目录升级系统python版本 (适用于全局修改)对于Ubuntu/Debian系统安装后,验证Pyt

MySQL 升级到8.4版本的完整流程及操作方法

《MySQL升级到8.4版本的完整流程及操作方法》本文详细说明了MySQL升级至8.4的完整流程,涵盖升级前准备(备份、兼容性检查)、支持路径(原地、逻辑导出、复制)、关键变更(空间索引、保留关键字... 目录一、升级前准备 (3.1 Before You Begin)二、升级路径 (3.2 Upgrade

基于Python Playwright进行前端性能测试的脚本实现

《基于PythonPlaywright进行前端性能测试的脚本实现》在当今Web应用开发中,性能优化是提升用户体验的关键因素之一,本文将介绍如何使用Playwright构建一个自动化性能测试工具,希望... 目录引言工具概述整体架构核心实现解析1. 浏览器初始化2. 性能数据收集3. 资源分析4. 关键性能指

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件

在macOS上安装jenv管理JDK版本的详细步骤

《在macOS上安装jenv管理JDK版本的详细步骤》jEnv是一个命令行工具,正如它的官网所宣称的那样,它是来让你忘记怎么配置JAVA_HOME环境变量的神队友,:本文主要介绍在macOS上安装... 目录前言安装 jenv添加 JDK 版本到 jenv切换 JDK 版本总结前言China编程在开发 Java

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC(GoogleRemoteProcedureCall)是一种高性能、开源的远程过程调用(RPC)框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》:本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase?SeleniumBase