MFCC C++实现与Python库可视化对比

2024-08-28 03:12

本文主要是介绍MFCC C++实现与Python库可视化对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MFCC C++实现与Python库对比

MFCC理论基础

在音频、语音信号处理领域,我们需要将信号转换成对应的语谱图(spectrogram),将语谱图上的数据作为信号的特征。语谱图的横轴x为时间,纵轴y为频率,(x,y)对应的数值代表在时间x时频率y的幅值。通常的语谱图其频率是线性分布的,但是人耳对频率的感受是对数的(logarithmic),即对低频段的变化敏感,对高频段的变化迟钝,所以线性分布的语谱图显然在特征提取上会出现“特征不够有用的情况”,因此梅尔语谱图应运而生。梅尔语谱图的纵轴频率和原频率经过如下公式互换:

img

img

其中f代表原本的频率,m代表转换后的梅尔频率,显然,当f很大时,m的变化趋于平缓。而梅尔倒频系数(MFCCs)是在得到梅尔语谱图之后进行余弦变换(DCT,一种类似于傅里叶变换的线性变换),然后取其中一部分系数即可。

信号预加重(pre-emphasis)

通常来讲语音/音频信号的高频分量强度较小,低频分量强度较大,信号预加重就是让信号通过一个高通滤波器,让信号的高低频分量的强度不至于相差太多。在时域中,对信号x[n]作如下操作:

img

a通常取一个很接近1的值,typical value为0.97或0.95。从时域公式来看,这是一个高通滤波器,我们从z变换的角度看一下滤波器的transfer function:

img

可以看出滤波器有一个极点0,和一个零点a。当频率为0时,z=1, 放大系数为(1-a)。当频率渐渐增大,放大系数不断变大,当频率到pi时,放大系数为(1+a)。离散域中,[0,pi]对应连续域中的0, fs/2。其中fs为采样率,在我们这里是44.1kHz。因此当频率到22000Hz时,放大系数为(1+a)

分帧(framing)

预处理完信号之后,要把原信号按时间分成若干个小块,一块就叫一帧(frame)。为啥要做这一步?因为原信号覆盖的时间太长,用它整个来做FFT,我们只能得到信号频率和强度的关系,而失去了时间信息。我们想要得到频率随时间变化的关系,所以将原信号分成若干帧,对每一帧作FFT(又称为短时FFT,因为我们只取了一小段时间),然后将得到的结果按照时间顺序拼接起来。这就是语谱图(spectrogram)的原理。

加窗(window)

分帧完毕之后,对每一帧加一个窗函数,以获得较好的旁瓣下降幅度。通常使用hamming window。为什么需要加窗?要注意,即使我们什么都不加,在分帧的这个过程中也相当于给信号加了矩形窗,学过离散滤波器设计的人应该知道,矩形窗的频谱有很大的旁瓣,时域中将窗函数和原函数相乘,相当于频域的卷积,矩形窗函数和原函数卷积之后,由于旁瓣很大,会造成原信号和加窗之后的对应部分的频谱相差很大,这就是频谱泄露。hamming window有较小的旁瓣,造成的spectral leakage也就较小。其中hamming window函数如下:

img

加窗分帧过程,实际是在时域上使用一个窗函数和原始信号进行相乘:

img

快速傅里叶变换(FFT)与能量谱(Power spectrum):

使用FFT的目的是将时域信号转换到频域。通过计算FFT结果的模平方实现信号的功率谱密度估计。其中平方实际对应二阶能量计算,目的是为了增强语音信号的特征表示,使MFCC对语音信号的特征更加敏感。

对于每一帧的加窗信号,进行N点FFT变换,也称短时傅里叶变换(STFT),N通常取256或512,然后用如下的公式计算能量谱:

img

其中二阶能量计算可表示为:

img

梅尔滤波器组与Filter Banks特征:

Mel刻度,这是一个能模拟人耳接收声音规律的刻度,人耳在接收声音时呈现非线性状态,对高频的更不敏感,因此Mel刻度在低频区分辨度较高,在高频区分辨度较低,与频率之间的换算关系为:

img

img

Mel滤波器组就是一系列的三角形滤波器,通常有40个或80个,在中心频率点响应值为1,在两边的滤波器中心点衰减到0,如下图所示:

img

具体公式表示为:

img

最后在能量谱上应用Mel滤波器组,其公式为:

img

取对数得到log mel-filter bank:

img

最后,根据以上描述,我们可以将Filter Banks特征分为以下几个步骤:

(1)确定滤波器组个数P
(2)根据采样率fs,DFT点数N,滤波器个数P,在梅尔域上等间隔的产生每个滤波器的起始频率和截止频率。
(3)将梅尔域上每个三角滤波器的起始、截止频率转换线性频率域,并对DFT之后的谱特征进行滤波,得到P个滤波器组能量,进行log操作,得到FBank特征。

离散余弦变换DCT与MFCC特征:

MFCC特征是在FBank特征的基础上继续进行离散余弦变换(DCT)变换。提取到的FBank特征,往往是高度相关的。因此可以继续用DCT变换,将这些相关的滤波器组系数进行压缩。通常取13维,扔掉的信息里面包含滤波器组系数快速变化部分。

img

C++实现

· 采用C++实现了MFCC算法,包括预加重滤波器、应用汉明窗、FFT、能量谱计算、Mel滤波器组特征提取以及DCT变换等核心功能。整体流程如下:

----------------------------初始化--------------------------

main.cpp(main)-> //入口函数,接收外部参数

mfcc.cpp(class MFCC)-> //初始化

--------------------------开始处理--------------------------

mfcc.cpp(process)-> //分帧

mfcc.cpp(processFrame)-> //处理单个窗口

mfcc.cpp(preEmphHam)-> //加汉明窗

mfcc.cpp(fft)-> //快速傅里叶变换

mfcc.cpp(computePowerSpec)-> //计算能量谱

mfcc.cpp(applymelFilterBanks)-> //提取Log Mel Filter Bank

mfcc.cpp(applyDct)-> //使用Dct将Log Mel Filter Bank转为MFCC

--------------------------保存结果--------------------------

mfcc.cpp(v_d_to_string) //保存

Python与C++的对比实现与可视化评估

o 我们对C++实现的MFCC算法进行了性能优化,确保了算法的高效运行,特别是在处理大规模数据集时。然后,为了验证C++实现的正确性,使用Python的librosa和torchaudio库进行了实现用于对比,并利用python_speech_features库作为额外的参考。最后,我们使用Matplotlib对MFCC特征进行了可视化展示,包括不同库实现的MFCC特征曲线对比,以及C++实现与Python实现的一致性验证。

特征一、二:

标题: fig:标题: fig:

特征三、四:

标题: fig:标题: fig:

特征五、六:

标题: fig:标题: fig:

实验结果显示,C++实现的MFCC特征与Python库(如librosa和torchaudio)的结果在趋势上基本一致,但在数值上存在微小差异,这主要归因于不同库在归一化和数值精度处理上的差异。

结论

本项目成功实现了MFCC特征提取算法的C++版本,并通过与其他流行库的对比验证了其准确性和有效性。C++实现在性能上显示出优势,尤其是在大规模数据处理上。此外,通过可视化评估,进一步证实了C++实现的MFCC特征与其他实现的一致性。

完整代码请访问github:CV-LS/mfcc_cpp_python (github.com)

如果您觉得这个项目对您有所帮助,请考虑给它一个星标(star)或 fork。您的支持是我们持续改进和发展的动力。

这篇关于MFCC C++实现与Python库可视化对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1113565

相关文章

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

C#如何调用C++库

《C#如何调用C++库》:本文主要介绍C#如何调用C++库方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录方法一:使用P/Invoke1. 导出C++函数2. 定义P/Invoke签名3. 调用C++函数方法二:使用C++/CLI作为桥接1. 创建C++/CL

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

利用Python打造一个Excel记账模板

《利用Python打造一个Excel记账模板》这篇文章主要为大家详细介绍了如何使用Python打造一个超实用的Excel记账模板,可以帮助大家高效管理财务,迈向财富自由之路,感兴趣的小伙伴快跟随小编一... 目录设置预算百分比超支标红预警记账模板功能介绍基础记账预算管理可视化分析摸鱼时间理财法碎片时间利用财

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1