代码解读 | Hybrid Transformers for Music Source Separation[04]

2024-06-12 04:28

本文主要是介绍代码解读 | Hybrid Transformers for Music Source Separation[04],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景

        0、Hybrid Transformer 论文解读

        1、代码复现|Demucs Music Source Separation_demucs架构原理-CSDN博客

        2、Hybrid Transformer 各个模块对应的代码具体在工程的哪个地方

        3、Hybrid Transformer 各个模块的底层到底是个啥(初步感受)?

        4、Hybrid Transformer 各个模块处理后,数据的维度大小是咋变换的?


        从模块上划分,Hybrid Transformer Demucs 共包含 (STFT模块、时域编码模块、频域编码模块、Cross-Domain Transformer Encoder模块、时域解码模块、频域解码模块、ISTFT模块)7个模块。

        本篇目标:拆解STFT模块的底层。

二、拆解STFT模块底层

2.1 torch.stft

import torch as thdef spectro(x, n_fft=512, hop_length=None, pad=0):*other, length = x.shapex = x.reshape(-1, length)is_mps = x.device.type == 'mps'if is_mps:x = x.cpu()z = th.stft(x,n_fft * (1 + pad),hop_length or n_fft // 4,window=th.hann_window(n_fft).to(x),win_length=n_fft,normalized=True,center=True,return_complex=True,pad_mode='reflect')_, freqs, frame = z.shapereturn z.view(*other, freqs, frame)

        核心代码,长上面这样。

        简单说一下为啥使用短时傅里叶变换(STFT),而不直接使用傅里叶变换(FT)。原因:傅立叶变换只能告诉我们信号当中有哪些频率成分。当我们还想知道各个成分出现的时间的时候,就得用到STFT了(这也就是时频分析。所谓时频分析,就是既要考虑到频率特征,又要考虑到时间序列变化)。

        上述公式就是torch.stft的底层公式,一句话总结:首先窗函数×时域信号,然后进行傅里叶变换其中,\omega表示频率,m表示滑动窗口的下标,input是一个时间序列,hop_length表示窗移大小,win_length表示窗长,window表示窗函数。


        具体的,torch.stft函数中各个参数的意义如下所示。

参数名称说明
input (Tensor):the input tensor输入
n_fft (int): size of Fourier transform傅里叶变换大小(决定频率分辨率)
hop_length (int, optional): the distance between neighboring sliding window frames. Default: ``None`` (treated as equal to ``floor(n_fft / 4)``)窗移,默认大小floor(n_fft / 4)
win_length (int, optional): the size of window frame and STFT filter. Default: ``None`` (treated as equal to :attr:`n_fft`)窗长,默认大小n_fft
window (Tensor, optional): the optional window function. Default: ``None`` (treated as window of all :math:`1` s)窗函数
center (bool, optional): whether to pad :attr:`input` on both sides so that the :math:`t`-th frame is centered at time :math:`t \times \text{hop\_length}`. Default: ``True``

是否对input两侧进行填充,

以至于在t帧的是居中的

pad_mode (string, optional): controls the padding method used when :attr:`center` is ``True``. Default: ``"reflect"``填充模式
normalized (bool, optional): controls whether to return the normalized STFT results Default: ``False``是否归一化
onesided (bool, optional): controls whether to return half of results to avoid redundancy for real inputs. Default: ``True`` for real :attr:`input` and :attr:`window`, ``False`` otherwise.控制是否返回一半结果
return_complex (bool, optional): whether to return a complex tensor, or a real tensor with an extra last dimension for the real and imaginary components.返回值是否设置为复数
  • n_fft 关注的是频率分辨率,即能够分辨的最小频率间隔。n_fft 越大,频率分辨率越高,但计算量也越大。
  • win_length 关注的是时间分辨率,即能够分辨的最小时间间隔。win_length 越大,时间分辨率越低,但可以更好地捕捉到低频信号的特征。

2.2 STFT整个模块干了啥

        上图是htdemucs调用STFT模块的入口。

       1、为了保持输出大小=输入大小/hop_length,先对输入信息进行填充(使用pad1d函数),然后进行STFT变换(核心代码见2.1)。

        2、拿到STFT结果后,进入_magnitude函数。当cac为True的时候,_magnitude函数把复数维度移动到通道维度。当cac为False的时候,_magnitude函数计算出幅度值。

        done,STFT模块讲解完成。


        感谢阅读,最近开始写公众号(分享好用的AI工具),欢迎大家一起见证我的成长(桂圆学AI)

这篇关于代码解读 | Hybrid Transformers for Music Source Separation[04]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053190

相关文章

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Java集合之Iterator迭代器实现代码解析

《Java集合之Iterator迭代器实现代码解析》迭代器Iterator是Java集合框架中的一个核心接口,位于java.util包下,它定义了一种标准的元素访问机制,为各种集合类型提供了一种统一的... 目录一、什么是Iterator二、Iterator的核心方法三、基本使用示例四、Iterator的工

Java 线程池+分布式实现代码

《Java线程池+分布式实现代码》在Java开发中,池通过预先创建并管理一定数量的资源,避免频繁创建和销毁资源带来的性能开销,从而提高系统效率,:本文主要介绍Java线程池+分布式实现代码,需要... 目录1. 线程池1.1 自定义线程池实现1.1.1 线程池核心1.1.2 代码示例1.2 总结流程2. J

MySQL之搜索引擎使用解读

《MySQL之搜索引擎使用解读》MySQL存储引擎是数据存储和管理的核心组件,不同引擎(如InnoDB、MyISAM)采用不同机制,InnoDB支持事务与行锁,适合高并发场景;MyISAM不支持事务,... 目录mysql的存储引擎是什么MySQL存储引擎的功能MySQL的存储引擎的分类查看存储引擎1.命令

Spring的基础事务注解@Transactional作用解读

《Spring的基础事务注解@Transactional作用解读》文章介绍了Spring框架中的事务管理,核心注解@Transactional用于声明事务,支持传播机制、隔离级别等配置,结合@Tran... 目录一、事务管理基础1.1 Spring事务的核心注解1.2 注解属性详解1.3 实现原理二、事务事

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

Vue实现路由守卫的示例代码

《Vue实现路由守卫的示例代码》Vue路由守卫是控制页面导航的钩子函数,主要用于鉴权、数据预加载等场景,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、概念二、类型三、实战一、概念路由守卫(Navigation Guards)本质上就是 在路

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

JAVA实现Token自动续期机制的示例代码

《JAVA实现Token自动续期机制的示例代码》本文主要介绍了JAVA实现Token自动续期机制的示例代码,通过动态调整会话生命周期平衡安全性与用户体验,解决固定有效期Token带来的风险与不便,感兴... 目录1. 固定有效期Token的内在局限性2. 自动续期机制:兼顾安全与体验的解决方案3. 总结PS

C#中通过Response.Headers设置自定义参数的代码示例

《C#中通过Response.Headers设置自定义参数的代码示例》:本文主要介绍C#中通过Response.Headers设置自定义响应头的方法,涵盖基础添加、安全校验、生产实践及调试技巧,强... 目录一、基础设置方法1. 直接添加自定义头2. 批量设置模式二、高级配置技巧1. 安全校验机制2. 类型