MFCC(梅尔倒频谱系数)总结

2024-06-14 00:38

本文主要是介绍MFCC(梅尔倒频谱系数)总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

看了很多MFCC的资料,经常过一段时间就忘了。现在总结一下其中的要点,便于今后翻看。

MFCC(梅尔倒频谱系数)是在1980年由Davis和Mermelstein搞出来的。MFCC是一种人工(hand crafted)特征,可以用于语音识别等。当年在语音领域取得了重大的成就,后来出现了深度学习,这种deep learned特征就是另一说了。虽然现在深度学习如日中天,也取得了非常好的效果,但是MFCC仍然有很高的出现频率,甚至有把音频的MFCC作为RNN的输入再提特征的。

MFCC的提取过程

  1. 对一段连续的音频信号分帧
  2. 把每一帧转换为它的频谱(或者能量谱)
  3. 对每一帧的频谱用梅尔滤波器(mel filterbank)进行滤波,再对每个滤波器的结果求和得到一个长度为 n n 滤 波 器 的向量
  4. 对3.中得到的向量的每个元素取对数
  5. 对4.中的向量做DCT,得到另一个向量(倒频谱)
  6. 保留第2~13个元素,舍弃其他。这个长度为12的向量即为MFCC

Mel scale(梅尔刻度)

梅尔刻度产生,是由于人的听力对不同频率的声音变化的敏感性不同而提出的。具体地,人耳对于低频声音的变化要比高频敏感。所以对频率做一个非线性变换,得到梅尔刻度:
这里写图片描述
反之,
这里写图片描述
正向变换的函数图像为:
这里写图片描述
通过这个函数图像可以明显地看到,变换后,低频部分的差异被拉大(纵轴范围变大,即纵向拉长),而高频部分的差异被压缩(纵轴范围变小)。可以想象为,一把长度为5的尺子,上面所有的刻度点都右移不等,使得左边的刻度稀疏,右边稠密。

实现方法

假设声音信号频率为16kHz。

1. 对音频分帧

通常每帧的长度为20~40ms,25ms是标准的。这意味着每帧有 0.02516000=400 0.025 ∗ 16000 = 400 个采样点。而分帧步长(frame step)通常为10ms,即160 samples;两帧之间有重叠。如果帧数不为偶数,通常还要padding。

下面的步骤就是对每帧进行操作,每帧会提取出12个MFCC。
假设我们的声音信号为 s(n) s ( n ) ,分帧后为 si(n) s i ( n ) n n 1~ N N (400),i 1 1 ~总帧数。si(n)经过DFT之后得到 Si(k) S i ( k ) ,对应的功率谱为 Pi(k) P i ( k )

2. 对每帧做DFT

这里写图片描述
其中 h(n) h ( n ) N N sample long analysis window (e.g. hamming window),K是DFT的长度。每帧 si(n) s i ( n ) 的功率谱为
这里写图片描述
通常FFT为512个点,取前257个。

3. 计算Mel-spaced filterbank,并进行滤波(加权和)

通常有20~40(标准是26)个三角滤波器,用来对2.中的能量谱进行滤波。由于上面说了,对每一帧用FFT得到257个点,所以这里会有26个长度为257的滤波器。

如何确定滤波器的形状?

下面以10个梅尔滤波器为例,解释如何确定滤波器的形状。假设声音频率范围是300Hz到8000Hz,对应为401.25 Mels到2834.99 Mels。
1.把频率(Hz)转为Mel scale
2.假设现在盛博我们需要10个滤波器,所以加上两端点一共有12个点,即将频域分成了11份:

m(i) = 401.25, 622.50, 843.75, 1065.00, 1286.25, 1507.50, 1728.74, 1949.99, 2171.24, 2392.49, 2613.74, 2834.99

3.将上面的Mels转回Hz

h(i) = 300, 517.33, 781.90, 1103.97, 1496.04, 1973.32, 2554.33, 3261.62, 4122.63, 5170.76, 6446.70, 8000

4.在对应位置用三角滤波器进行滤波
这里写图片描述
这样就得到了一个10维的向量。注意,标准情况下应该是26个。

4. 将3.中的26维向量取对数
5. 对4.中的26维向量用DCT

得到了26个倒谱系数(cepstral coefficents)。一般取第2-13个,即为MFCC

这篇关于MFCC(梅尔倒频谱系数)总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1058888

相关文章

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自