Interspeech 2017论文总结

2023-11-04 05:30
文章标签 总结 论文 2017 interspeech

本文主要是介绍Interspeech 2017论文总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今年的interspeech2017有两个section是关于情感的: Emotion Recognition 和 Emotion Modeling,共有12篇文章,best paper 提名的是关于多任务学习的文章。今年的interspeech主要是以多任务学习为主,占据了半壁江山。其余为一篇利用对抗自编码做压缩;一篇端到端;一篇离散转回归问题求解;一篇对话中的情感识别;一篇探讨不同的CNN对于问题的影响;一篇GMM用于情感识别的文章【没有仔细看】;

首先对所有论文进行总结,可以看出多任务学习是今年的主流

这里写图片描述

多任务文章【利用不同任务之间的相关性,提示系统性能】

这里写图片描述
Attention + 多任务【离散和连续标签都预测】
这里写图片描述
模型结构没什么好说的,这种可以清晰看见感受野的绘图方式,还是值得学习的。
输入:音频特征,用openSMILE提取;输入帧级别的特征,没有统计方程。【作者认为原始波形会使得模型输入维度太高,容易过拟合,因此不用raw wave 端到端的方法】
输出:多任务,连续+离散 多任务学习。
数据库: IEMOCAP,得到目前state-of-art的结果,63.85%
目标:分类,使得平均准确率最高。

这里写图片描述
这是best paper候选文章。作者提出了多任务学习,将三个任务一起训练。并加入主次任务,体现在loss上面。主要观点:主任务和次任务有相关性。【feature work: GAN+多任务??】【多任务体现在多输出上面】
这里写图片描述
这里写图片描述
特征:6373 维度 Interspeech 2013特征。
数据集:MSP-PADCAST【自己收集】, USC-IEMOCAP,MSP-IMPROV
模型:MTL2好于MTL1
损失函数:训练过程中,是使得目标CCC最大,两个次任务来辅助主任务取得好成绩。

这里写图片描述

这里写图片描述
将LSTM应用到多任务学习。(LSTM-MTL)。 [测试结果:它所谓的cross-corpus,就是简单的把不同的数据库整合起来,把所有的数据直接拿过来用,留下一部分用来做测试] 【仍然是多输出】
这里写图片描述
数据库:比较全面的数据库【总共有5个数据库】,有四种情感类别。【AIBO,IEMOCAP数据量比较大】
这里写图片描述
特征:传统语音特征,F0, voice probability, zero-crossing-rate, l2 dimension MFCC with energy and their first time derivatives, totaling 32 features.

模型:比较了DNN-MTL 和 LSTM-MTL
多任务:gender和natural,emotion
可视化:T-SNE

迁移学习

这里写图片描述
Progressive Neural Networks这个方法用于IEMOCAP and MSP-IMPROV两个数据库上。多任务体现在:1 训练了gender模型,speaker模型,将其迁移到情感预测上;2 在一个数据库上训练,再迁移到另一个数据库上。【任务的迁移;数据库的迁移】
这里写图片描述
Progressive Neural Networks借鉴的是2016/9/7 Deepmind的文章,它提出了一种迁移学习的方法,认为他们的方法,更适合多任务学习和迁移学习,减轻了遗忘。【因为每一个target task 的前几层都与source target相连】
这篇Interspeech文章就是比较了三种模型的搭建方法:1 只有目标任务的数据,训练一个DNN网络;2 finetuning; 3 Progressive Neural Network.
本文实现了利用gender模型和speaker模型,迁移到情感模型上去。

对抗自编码

这里写图片描述
这篇文章就是对抗自编码在IEMOCAP上的应用。主要考察了多种降维方式,以降低情感数据的维度。主要借鉴了2016/5/25的Goodfellow关于Adversarial Autoencoders的文章。下图列举了有label和无label两种模型训练的示意图。
这里写图片描述
这里写图片描述
本文有两个实验,用code vector做分类;用AAE做数据增强。AAE降维方式比一般的降维方式要好。降到2维仍然有很好的区分能力。
这里写图片描述
作者认为,以后可以考虑frame level features,而不是utterance level features【utterance level features就是加上统计回归方程的特征】。但是本文整体还是应用性质。

端到端

这里写图片描述
端到端,语谱图+神经网络[详细介绍了怎么提取语谱图]【单单语谱图是不够的,还在去噪方面讨论】
这里写图片描述
主要工作:探讨不同模型结构,如何应对有噪声的语音
数据库:IEMOCAP
去噪:认为语音的短时谐波信号比较自然,假设情感状态保存在有声音的部分,利用开源的pitch detector提起pitch,利用谐波滤波器得到modified log-power-spectra。

CNN卷积

这里写图片描述
这篇文章,认为扩大感受野和输出更加平滑的预测值, 对于CCC很重要。[Dilated convolution network] and [Down/up network]。测试了两种卷积模型:
这里写图片描述
这里写图片描述

Dilated convolution network: 扩大感受野
Down/up network: 扩大感受野,平滑曲线
数据库:AVEC2016的RECOLA
评价指标:CCC和RMSE

连续离散化预测

这里写图片描述
离散化连续预测的标签【保持连续性很关键】,详细信息请查看之前的一篇博客
这里写图片描述
数据集:RECOLA AVEC2016数据库,数据每40ms标注一次;官方的评价指标是CCC,RMSE
特征:40维度log Mel features。窗长25ms,移动10ms。级联4帧特征,得到160维度向量,感受时长为40ms,和标准相同。最后加上z-normalization。【CCC和RMSE是根据对应位置的值计算得到的,不是连续的两个曲线计算,而是对应位置的采样点计算得到】
方法:

  • 【1】 标签离散化
    对所有的曲线做k-mean量化处理。发现离散化后,CCC和RMSE相差不大。
    这里写图片描述
  • 【2】 BLSTM-RNN训练
    这里的多任务只是不同参数建模结果的合并【叫做多任务有点问题】
    目标函数:最小化CCE,实际上就是T个任务交叉熵的和。每个任务又有F个帧,每一帧和目标计算交叉熵
    这里写图片描述

在交叉熵的基础上,增加了一个C(y, l)。使得目标值和正确的label相距越远,损失越大。
这里写图片描述
优化 CCE要更加稳定。【??感觉就是加速收敛】
- 【3】 Emotion decoding (借鉴seq2seq的解码方式,使得模型预测结果更加连续)
为了利用概率值,得到更加平滑的曲线,采用两阶段HMM.[2014年文章],但是我没有看懂
这里写图片描述

朴素贝叶斯考虑维度空间的距离信息

这里写图片描述
这篇文章,考虑emotion-pair,同时将维度空间的距离信息考虑进去。
这里写图片描述
数据集:IEMOCAP
特征: Interspeech 2009, total 384 dimension features
特征选择: z-normalization,主要认为不同说话人的average characteristic of neural utterances差异不大。归一化可以排除多个说话人的影响。然后用binary logistic regression作特征选择。每一个子任务【emotion-pair】特征维数不一样。
Naïve Bayes classifier特征融合:将额外的空间维度信息考虑进去。
缺点:只是考虑了属于哪一类,但是没有考虑计算出来的二分类概率。
这里写图片描述

多说人情感识别

这里写图片描述
这篇文章的内容比较简单,做的是基于多人对话之间的相互关系进行情感识别。也是说:前一个说话人的情感和当前说话人的情感有相关性。当前说话人之前的情感和现在的情感也有相关性。
这里写图片描述
数据集:IEMOCAP
Utterance 模型: attention based sequence to sequence model

最后总结一下情感识别的数据集,音频特征,发展趋势

数据库

这里写图片描述

特征

这里写图片描述

发展趋势

这里写图片描述

参考文章:

[1] Sahu, Saurabh et al. “Adversarial Auto-encoders for Speech Based Emotion Recognition.” (2017).
[2] Dang, Ting et al. “An Investigation of Emotion Prediction Uncertainty Using Gaussian Mixture Regression.” (2017).
[3] Neumann, Michael and Ngoc Thang Vu. “Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech.” CoRR abs/1706.00612 (2017).
[4] Khorram, Soheil et al. “Capturing Long-term Temporal Dependencies with Convolutional Networks for Continuous Emotion Recognition.” CoRR abs/1708.07050 (2017).
[5] Le, Duc et al. “Discretized Continuous Speech Emotion Recognition with Multi-Task Deep Recurrent Neural Network.” (2017).
[6] Satt, Aharon et al. “Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms.” (2017).
[7] Zhang, Ruo et al. “Interaction and Transition Model for Speech Emotion Recognition in Dialogue.” (2017).
[8] Parthasarathy, Srinivas and Carlos Busso. “Jointly Predicting Arousal, Valence and Dominance with Multi-Task Learning.” (2017).
[9] Gideon, John et al. “Progressive Neural Networks for Transfer Learning in Emotion Recognition.” CoRR abs/1706.03256 (2017).
[10] Ma, Xi et al. “Speech Emotion Recognition with Emotion-Pair based Framework Considering Emotion Distribution Information in Dimensional Emotion Space.” (2017).
[11] Kim, Jaebok et al. “Towards Speech Emotion Recognition “in the wild” using Aggregated Corpora and Deep Multi-Task Learning.” CoRR abs/1708.03920 (2017).
[12] Chasaide, Ailbhe Ní et al. “Voice-to-Affect Mapping: Inferences on Language Voice Baseline Settings.” (2017).
[13] Rusu, Andrei A. et al. “Progressive Neural Networks.” CoRR abs/1606.04671 (2016).
[14] Rusu, Andrei A. et al. “Progressive Neural Networks.” CoRR abs/1606.04671 (2016).
[15] Lee, Jinkyu and Ivan Tashev. “High-level feature representation using recurrent neural network for speech emotion recognition.” INTERSPEECH (2015).

这篇关于Interspeech 2017论文总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/343576

相关文章

C# List.Sort四种重载总结

《C#List.Sort四种重载总结》本文详细分析了C#中List.Sort()方法的四种重载形式及其实现原理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友... 目录1. Sort方法的四种重载2. 具体使用- List.Sort();- IComparable

SpringBoot项目整合Netty启动失败的常见错误总结

《SpringBoot项目整合Netty启动失败的常见错误总结》本文总结了SpringBoot集成Netty时常见的8类问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录一、端口冲突问题1. Tomcat与Netty端口冲突二、主线程被阻塞问题1. Netty启动阻

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

python3中正则表达式处理函数用法总结

《python3中正则表达式处理函数用法总结》Python中的正则表达式是一个强大的文本处理工具,用于匹配、查找、替换等操作,在Python中正则表达式的操作主要通过内置的re模块来实现,这篇文章主要... 目录前言re.match函数re.search方法re.match 与 re.search的区别检索

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL