通过wav文件和text文件训练出phoneme文件的过程

2023-10-21 15:50
文章标签 训练 过程 text wav phoneme

本文主要是介绍通过wav文件和text文件训练出phoneme文件的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

环境:python2.7和python3.6

最近训练的一个神经网络需要wav文件和phn文件作为自己输入。

所有的数据库中都有wav文件,但是phoneme文件却不是每个数据库都有。

TIMIT数据库中就PHN文件。

先贴个PHN文件的图。

SX127.PHN

再看一下这句话的文本。

后面就是这句话没问题,0-24679肯定就是时间了。

我们看到时间是1.543,因为是16000的采样率,所以一共采24672个点,和24679基本一致(差几个估计是时间精度不够)。

至此,PHN文件我们已经非常了解了。

start_time end_time phoneme

应该是这个格式。

 

 

接下来我们先了解一下一个包:glob

glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符:"*", "?", "[]"。"*"匹配0个或多个字符;"?"匹配单个字符;"[]"匹配指定范围内的字符,如:[0-9]匹配数字。

用法也很简单。

 

import globwav_file = glob.glob('data_path')

 

举个例子:

 

import glob
wav_file = glob.glob('./train/*/*/*.wav')

用的时候要注意下相对路径和绝对路径。

 

这样我们就得到了数据库中所有wav的名字了,被存在一个list中。

 

接下来学习一个alienment的软件 ,基于kaldi做的。

montreal-forced-aligner。

这是他们的git:https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner

这是他们的官方文档:http://montreal-forced-aligner.readthedocs.io/en/latest/

其实这个工具非常好用,因为我们是汉字的对齐,所以就不使用他们的预训练模型了。

我们直接使用release版本。

解压后有3个文件夹,其中的bin里面就是我们需要的程序。

看两个简单的命令来了解一下。

 

bin/mfa_align /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt english ~/Documents/aligned_librispeech

这个是直接对齐的命令,第一个参数是你的数据库,第二个参数是字典,第三个参数是你使用的模型。

 

 

bin/mfa_train_and_align  /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt ~/Documents/aligned_librispeech

这个是训练模型命令,第一个参数是数据库,第二个但是字典,第三个是你保存模型的位置。


下面我们继续学习一个分词工具包:jieba

 

因为我们要进行中文的txt2phn。

所以我们不得不面临分词的问题,接下来我们继续来看看如何中文分词。

python有个很好的工具包jieba

安装非常容易。python2或3均可。

 

pip install jieba

这个包也是非常的简单,Git上有详细说明,这里就不赘述了。

 

用这个工具把文本全部分割好就可以对齐了。

后面的过程就不赘述了,大概就是分割-对齐-最后形成相同格式。。。

可能有点烂尾,如果也在做相同过程碰到了一些问题可以给我留言,Emm

 

这篇关于通过wav文件和text文件训练出phoneme文件的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255397

相关文章

Django HTTPResponse响应体中返回openpyxl生成的文件过程

《DjangoHTTPResponse响应体中返回openpyxl生成的文件过程》Django返回文件流时需通过Content-Disposition头指定编码后的文件名,使用openpyxl的sa... 目录Django返回文件流时使用指定文件名Django HTTPResponse响应体中返回openp

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

解密SQL查询语句执行的过程

《解密SQL查询语句执行的过程》文章讲解了SQL语句的执行流程,涵盖解析、优化、执行三个核心阶段,并介绍执行计划查看方法EXPLAIN,同时提出性能优化技巧如合理使用索引、避免SELECT*、JOIN... 目录1. SQL语句的基本结构2. SQL语句的执行过程3. SQL语句的执行计划4. 常见的性能优