kaldi数据准备(二)

2024-02-23 15:08
文章标签 数据 准备 kaldi

本文主要是介绍kaldi数据准备(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

local/prepare_data.sh

创建data/train, data/test, (data/dev可选),每个文件里面必须包含text, wav.scp, utt2spk, spk2utt

for x in train_yesno test_yesno; docat data/$x/text | awk '{printf("%s global\n", $1);}' > data/$x/utt2spkutils/utt2spk_to_spk2utt.pl <data/$x/utt2spk >data/$x/spk2utt
done

text和wav.scp, utt2spk提前准备好, spk2utt通过上面命令可以生成。

text : < uttid > < word >
wav.scp : < uttid > < utter_file_path >
utt2spk : < uttid > < speakid >
spk2utt : < speakid > < uttid >    

local/prepare_dict.sh

创建data/local/dict。

lexicon.txt 
lexicon_words.txt    
nonsilence_phones.txt 
silence_phones.txt    
optional_silence.txt 
extra_questions.txt     #可选
lexicon.txt        #词典包括语料中涉及的词汇与发音
lexicon_words.txt     #不包含静音的词典
silence_phones.txt     #静音标识sil
optional_silence.txt     #有选择性地在词之间出现的单音素sil
nonsilence_phones.txt     #非静音标识
silence_phones.txt   
extra_questions.txt     #包含重音音调标记

utils/prepare_lang.sh –position-dependent-phones false data/local/dict “\“ data/local/lang data/lang

输入是目录 data/local/dict,标签”\“是字典里的单词,映射OOV单词到出现在副本中的单词中(data/lang/oov.txt)。目录data/local/lang/是脚本会用到的临时目录;data/lang/是输出目录。

生成data/local/lang, data/lang
data/local/lang 是一个临时目录,生成的文件包括:

align_lexicon.txt        lexiconp_disambig.txt  
lexiconp.txt            lex_ndisambig  
phone_map.txt            phones

data/lang 里面包含的文件:

L_disambig.fst          L.fst          #词典fst
oov.int              oov.txt      phones  
phones.txt              topo          words.txt 

如果一个词有不同发音,则会在不同行中出现多次。如果你想使用发音概率,你需要lexiconp.txt而不是lexicon.txt

local/prepare_lm.sh

生成data/lang_test_bg,包含

G.fst        L_disambig.fst  #新生成的语言模型fst
L.fst          oov.int  oov.txt 
phones      phones.txt  
topo          words.txt 

脚本

#!/bin/bash. path.shecho Preparing language models for testfor lm_suffix in tg; dotest=data/lang_test_${lm_suffix}rm -rf data/lang_test_${lm_suffix}cp -r data/lang data/lang_test_${lm_suffix}arpa2fst --disambig-symbol=#0 --read-symbol-table=$test/words.txt input/task.arpabo $test/G.fst#arpa2fst --disambig-symbol=#0 --read-symbol-table=$test/words.txt my_data/3gram.arpa $test/G.fstfstisstochastic $test/G.fst# The output is like:
# 9.14233e-05 -0.259833
# we do expect the first of these 2 numbers to be close to zero (the second is
# nonzero because the backoff weights make the states sum to >1).
# Because of the <s> fiasco for these particular LMs, the first number is not
# as close to zero as it could be.# Everything below is only for diagnostic.
# Checking that G has no cycles with empty words on them (e.g. <s>, </s>);
# this might cause determinization failure of CLG.
#  #0 is treated as an empty word.mkdir -p tmpdir.gawk '{if(NF==1){ printf("0 0 %s %s\n", $1,$1); }} END{print "0 0 #0 #0"; print "0";}' \< data/local/dict/lexicon.txt  >tmpdir.g/select_empty.fst.txtfstcompile --isymbols=$test/words.txt--osymbols=$test/words.txt tmpdir.g/        select_empty.fst.txt | \fstarcsort --sort_type=olabel | fstcompose - $test/G.fst >tmpdir.g/empty_words.fstfstinfo tmpdir.g/empty_words.fst | grep cyclic | grep -w 'y' &&echo "Language model has cycles with empty words" && exit 1rm -r tmpdir.g
doneecho "Succeeded in formatting data."

其中my_data/3gram.arpa是我们的3gram模型

ngram-count -wbdiscount -order 3 -text words.txt -vocab vocab.txt -unk -interpolate5 -lm 3-gram.arpa 

ngram-count命令可以google.

至此数据准备阶段完成了。进入data目录会看到下面的文件夹

lang              # 包含语言文件 
lang_test_bg         # 用于测试的语言文件 
local             # 包含了原始数据的信息,以及词典 
test             # 测试集 
train             # 训练集 

mfcc

for x in train dev test; dosteps/make_mfcc.sh --cmd "$train_cmd" --nj $feats_nj data/$x exp/make_mfcc/$x $mfccdirsteps/compute_cmvn_stats.sh data/$x exp/make_mfcc/$x $mfccdir
utils/fix_data_dir.sh data/$x     #该脚本会修复排序错误,并会移除那些被指明需要特征数据或标注,但是却找不到被需要的数据的那些发音(utterances)
done

生成mfcc, exp/make_mfcc以及data/train, data/test, date/dev里面的cmvn.scp feats.scp。
其中mfcc里面放着.scp和.ark特征文件,exp/make_mfcc里面有train, test, dev放着各种日志.log

make_mfcc.sh会用到conf/mfcc.conf

–use-energy=false # only non-default option.
–sample-frequency=16000 # Switchboard is sampled at 8kHz

采样频率在这里设置的,要是出现Sample frequency mismatch的问题在这里进行修改。

里面的所有脚本都可以自己根据实际数据情况进行更改。

注:本实例基于timit,timit数据集获取方式:

wget http://182.92.241.109/cxst_download/mnt/luojie/timit.zip 

这篇关于kaldi数据准备(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/739023

相关文章

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、

Spring Validation中9个数据校验工具使用指南

《SpringValidation中9个数据校验工具使用指南》SpringValidation作为Spring生态系统的重要组成部分,提供了一套强大而灵活的数据校验机制,本文给大家介绍了Spring... 目录1. Bean Validation基础注解常用注解示例在控制器中应用2. 自定义约束验证器定义自

C#实现高性能Excel百万数据导出优化实战指南

《C#实现高性能Excel百万数据导出优化实战指南》在日常工作中,Excel数据导出是一个常见的需求,然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈,下面我们看看C#如何结合EPPl... 目录一、技术方案核心对比二、各方案选型建议三、性能对比数据四、核心代码实现1. MiniExcel

SQL常用操作精华之复制表、跨库查询、删除重复数据

《SQL常用操作精华之复制表、跨库查询、删除重复数据》:本文主要介绍SQL常用操作精华之复制表、跨库查询、删除重复数据,这些SQL操作涵盖了数据库开发中最常用的技术点,包括表操作、数据查询、数据管... 目录SQL常用操作精华总结表结构与数据操作高级查询技巧SQL常用操作精华总结表结构与数据操作复制表结

Redis中的数据一致性问题以及解决方案

《Redis中的数据一致性问题以及解决方案》:本文主要介绍Redis中的数据一致性问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Redis 数据一致性问题的产生1. 单节点环境的一致性问题2. 网络分区和宕机3. 并发写入导致的脏数据4. 持

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格