通过wav文件和text文件训练出phoneme文件的过程

2023-10-21 15:50
文章标签 训练 过程 text wav phoneme

本文主要是介绍通过wav文件和text文件训练出phoneme文件的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

环境:python2.7和python3.6

最近训练的一个神经网络需要wav文件和phn文件作为自己输入。

所有的数据库中都有wav文件,但是phoneme文件却不是每个数据库都有。

TIMIT数据库中就PHN文件。

先贴个PHN文件的图。

SX127.PHN

再看一下这句话的文本。

后面就是这句话没问题,0-24679肯定就是时间了。

我们看到时间是1.543,因为是16000的采样率,所以一共采24672个点,和24679基本一致(差几个估计是时间精度不够)。

至此,PHN文件我们已经非常了解了。

start_time end_time phoneme

应该是这个格式。

 

 

接下来我们先了解一下一个包:glob

glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符:"*", "?", "[]"。"*"匹配0个或多个字符;"?"匹配单个字符;"[]"匹配指定范围内的字符,如:[0-9]匹配数字。

用法也很简单。

 

import globwav_file = glob.glob('data_path')

 

举个例子:

 

import glob
wav_file = glob.glob('./train/*/*/*.wav')

用的时候要注意下相对路径和绝对路径。

 

这样我们就得到了数据库中所有wav的名字了,被存在一个list中。

 

接下来学习一个alienment的软件 ,基于kaldi做的。

montreal-forced-aligner。

这是他们的git:https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner

这是他们的官方文档:http://montreal-forced-aligner.readthedocs.io/en/latest/

其实这个工具非常好用,因为我们是汉字的对齐,所以就不使用他们的预训练模型了。

我们直接使用release版本。

解压后有3个文件夹,其中的bin里面就是我们需要的程序。

看两个简单的命令来了解一下。

 

bin/mfa_align /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt english ~/Documents/aligned_librispeech

这个是直接对齐的命令,第一个参数是你的数据库,第二个参数是字典,第三个参数是你使用的模型。

 

 

bin/mfa_train_and_align  /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt ~/Documents/aligned_librispeech

这个是训练模型命令,第一个参数是数据库,第二个但是字典,第三个是你保存模型的位置。


下面我们继续学习一个分词工具包:jieba

 

因为我们要进行中文的txt2phn。

所以我们不得不面临分词的问题,接下来我们继续来看看如何中文分词。

python有个很好的工具包jieba

安装非常容易。python2或3均可。

 

pip install jieba

这个包也是非常的简单,Git上有详细说明,这里就不赘述了。

 

用这个工具把文本全部分割好就可以对齐了。

后面的过程就不赘述了,大概就是分割-对齐-最后形成相同格式。。。

可能有点烂尾,如果也在做相同过程碰到了一些问题可以给我留言,Emm

 

这篇关于通过wav文件和text文件训练出phoneme文件的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255397

相关文章

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

Spring Boot 整合 Apache Flink 的详细过程

《SpringBoot整合ApacheFlink的详细过程》ApacheFlink是一个高性能的分布式流处理框架,而SpringBoot提供了快速构建企业级应用的能力,下面给大家介绍Spri... 目录Spring Boot 整合 Apache Flink 教程一、背景与目标二、环境准备三、创建项目 & 添

pytest+allure环境搭建+自动化实践过程

《pytest+allure环境搭建+自动化实践过程》:本文主要介绍pytest+allure环境搭建+自动化实践过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、pytest下载安装1.1、安装pytest1.2、检测是否安装成功二、allure下载安装2.

Pytorch介绍与安装过程

《Pytorch介绍与安装过程》PyTorch因其直观的设计、卓越的灵活性以及强大的动态计算图功能,迅速在学术界和工业界获得了广泛认可,成为当前深度学习研究和开发的主流工具之一,本文给大家介绍Pyto... 目录1、Pytorch介绍1.1、核心理念1.2、核心组件与功能1.3、适用场景与优势总结1.4、优

Redis指南及6.2.x版本安装过程

《Redis指南及6.2.x版本安装过程》Redis是完全开源免费的,遵守BSD协议,是一个高性能(NOSQL)的key-value数据库,Redis是一个开源的使用ANSIC语言编写、支持网络、... 目录概述Redis特点Redis应用场景缓存缓存分布式会话分布式锁社交网络最新列表Redis各版本介绍旧

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Jvm sandbox mock机制的实践过程

《Jvmsandboxmock机制的实践过程》:本文主要介绍Jvmsandboxmock机制的实践过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、背景二、定义一个损坏的钟1、 Springboot工程中创建一个Clock类2、 添加一个Controller

python多线程并发测试过程

《python多线程并发测试过程》:本文主要介绍python多线程并发测试过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、并发与并行?二、同步与异步的概念?三、线程与进程的区别?需求1:多线程执行不同任务需求2:多线程执行相同任务总结一、并发与并行?1、