[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行

本文主要是介绍[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:因为在学校要做语音相关的开发,并且应用环境多数是在无网络状态下,故要用到离线语音识别。经过一番查阅,发现目前在做离线语音识别的,尤其是android环境下的离线语音识别的人确实很少。(插一句如果想要实现离线语音合成的可以看一下中科院慧声语音工作室提供的开放平台)在查阅资料期间联系过许多android方面经验丰富的前辈、朋友,但都没有接触过这个。因为是0基础,所以基本碰到一个东西就是新的,需要一点一点的学,不过即使现在能够成功运行demo,但也只是大体上的了解,主要是应用,用到什么学什么,并不深入。

下面,我将根据自己搭建环境和运行中遇到的问题,说一下自己的问题和解决方法,最后给出相关下载链接,给大家节省些时间,希望能帮助到遇到类似问题的朋友,也希望能互相学习交流。

由于许多朋友需要源代码,我便将我用过的源代码及声学模型和词典放到了csdn资源中供大家下载地址如下所示:http://download.csdn.net/detail/loveannuoa/5386461  这个工程和下面说的第二个链接代码是一样的,只是声学模型和词典不同,这个工程的数据是我自己弄的。

另外,本篇文章主要说的再linux下搭建环境,windows下的环境我也搭建完成,如果有不明白的可以先看一下我的另一篇关于windows下搭建环境的文章:http://blog.csdn.net/loveannuoa/article/details/8689478

 

重要提示:有一点之前没有说明,在整个环境配置中涉及了两个demo,一个是官方提供的即http://sourceforge.net/projects/cmusphinx/files/?source=navbar

另一个则是http://zuoshu.iteye.com/blog/1463867其中的。后者是“zuoshu”自己修改后的。根据测试,能够达到中文高识别率的是后者,即使唤作简单的中文数据词典文件,用前者的程序也没法识别。

搭建环境篇

注意:我在网上查到的几个搭建环境的帖子中都是针对Linux系统下的,一开始我没有注意到这个问题,是在windows下用cygwin模拟linux下做的,结果都没有成功。所以建议大家如果对cygwin中各种包、命令、错误不是很熟悉的情况下还是用linux系统吧,我是用的Ubuntu12.04和win7双系统,VM太卡受不了。下面指出的搭建环境的方法虽然能将demo运行起来,但识别率和识别速度实在是太难以让人满意,所以在中文识别篇中有提高识别率的方法。

我是通过两篇文章搭建的环境,分别是,

(1)http://blog.csdn.net/sununs11/article/details/8034294

         这个是CSDN中原版的android下利用pocketsphinx实现离线语音识别环境搭建方法,在myException网站和csdn其他博客中也有转载。通过这篇文章能够顺利的将demo跑起来。

(2)http://ucla.jamesyxu.com/?p=118

         这个应该是最早的讲解android离线语音识别的,而且确实不愧是老外的东西,讲解的很细致,同时也有问题分析。但这个教程中得第四步,即在demo的swig文件夹中运行”make”指令的这一步我始终没有执行过去,老是出错(错误会在下边指出)。作者貌似挺牛逼的,对网友们提出的问题都很热心的解答(但不知为什么我给他发过邮件,却一直没有点我,难道有反华倾向,呵呵)。

主要问题和注意事项集中在:

(1)    在安装sphinxbase和pocketsphinx包的时候会提示缺少其他的包(例如bison、libtool等),这个比较简单在cygwin下直接运行setup安装相应的包,如果在linux系统下直接用“sudo apt-get install “包名””就可以安装缺少的包。

(2)   在执行在swig目下make这一步中,首先,swig是需要单独安装,cygwin安装方法和(1)中类似,ubuntu下可以通过软件库下载安装。其次,无论在cygwin还是在ubuntu下都怎么弄都不成功,在cygwin下会提示问题(1)中提到的两个包未找到,这种情况可以参考http://cgwxyz.blog.163.com/blog/static/262806020105307929424/。另外,解决这个问题后还会出现.c文件中函数未定义的错误,我感觉这是cygwin本身的不足,可能就跟两个包没安装好有关。

在Ubuntu下,错误提示是缺少jni.h,这个包在jdk/include中,但无论我用“make  -I “jni.h的路径””将.h包含进来还直接将.h文件拷贝过来都依旧提示该错误。我没能解决了,如果大家有感兴趣的可以试一下,弄好了希望能通知一下,互相学习一下。

(3)    在demo的jni目录下执行ndk编译的时候,一定先修改Android.mk文件中SPHINX_PATH路径,修改时要将连同”$”在内的原来的路径都删掉,改成自己安装两个包的父目录,对于cygwin下要以“/cygdrive/….”开头,同样linux系统下也要先以”/”开头。

(4)    在更改工程属性中的swig和ndk时,要注意对于swig,在refresh选项中时选择的”thefloder…..”,而对于ndk则选择的是”theproject…..”,不要当做一样的,一定仔细按照步骤进行。


中文识别篇

我个人的理解:语音识别除了demo工程外还需要中/英文声学模型和语言模型,也就是环境搭建最后提到的hmm和lm文件夹,这两个文件夹在pocketsphinx中有,但是将这两个文件夹放入设备中测试时,不论中文还是英文识别率都很低而且识别速度也很慢。

因此以下几篇文章给出了解决办法:

(1)http://zuoshu.iteye.com/blog/1463867

这篇文章可以实现英文的识别,但是提到的中文识别目前我本人未实现,原因在于本文所给出的在线生成语音模型和字典的网站无法解析中文,只能生成英文字典。但是这篇文章给出了一个很好的生成语言模型和字典文件的网址

http://www.speech.cs.cmu.edu/tools/lmtool-new.html

 

(2)http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html#2525875

这个是在demo跑起来之后,为解决识别中文的办法。特点:速度快,识别率很高,但是范围小。而且对于.dic字典文件来说需要自己设计,这就需要有一个比较规范字典文件模板作比照,可以用pocketsphinx/model/lm/zh_CN中得字典文件,同时也可以用上述链接中提到的zh_broadcastnews_utf8.dic,下载地址是:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

 

以下是在环境搭建和demo运行中可能会用到的一些资料的下载链接:

(1)Sphinxbase和pocketsphinx的下载链接:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(2)demo的下载地址:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(3)一些sphinx和pocketsphinx基础知识学习的链接,涉及到一些识别引擎、识别原理的分析,挺专业的我没太看懂,以后还会继续学习。

http://blog.csdn.net/zouxy09/article/details/7941585

 

总结:

现在知识刚刚能够运行起demo来,能够简单的识别一些中文,对于识别引擎,识别原理我了解的太少,也是由于现在弄离线语音识别的太少,大多是在线的而且识别率和速度都很理想,导致几乎除了sphinx以外没有其他的语音识别引擎。

非常高兴大家能看到这里,这是我写的第一篇CSDN博文,以后希望能坚持写下去,希望与大家交流技术方面的知识,互相学习,大家如果在搭配环境或者运行demo上有什么问题,可以给我发私信,我会尽力帮忙的,互相学习共同进步。

这篇关于[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438956

相关文章

Kali Linux安装实现教程(亲测有效)

《KaliLinux安装实现教程(亲测有效)》:本文主要介绍KaliLinux安装实现教程(亲测有效),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、下载二、安装总结一、下载1、点http://www.chinasem.cn击链接 Get Kali | Kal

C#使用MQTTnet实现服务端与客户端的通讯的示例

《C#使用MQTTnet实现服务端与客户端的通讯的示例》本文主要介绍了C#使用MQTTnet实现服务端与客户端的通讯的示例,包括协议特性、连接管理、QoS机制和安全策略,具有一定的参考价值,感兴趣的可... 目录一、MQTT 协议简介二、MQTT 协议核心特性三、MQTTNET 库的核心功能四、服务端(BR

SpringCloud整合MQ实现消息总线服务方式

《SpringCloud整合MQ实现消息总线服务方式》:本文主要介绍SpringCloud整合MQ实现消息总线服务方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、背景介绍二、方案实践三、升级版总结一、背景介绍每当修改配置文件内容,如果需要客户端也同步更新,

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Dubbo之SPI机制的实现原理和优势分析

《Dubbo之SPI机制的实现原理和优势分析》:本文主要介绍Dubbo之SPI机制的实现原理和优势,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Dubbo中SPI机制的实现原理和优势JDK 中的 SPI 机制解析Dubbo 中的 SPI 机制解析总结Dubbo中

使用Java实现Navicat密码的加密与解密的代码解析

《使用Java实现Navicat密码的加密与解密的代码解析》:本文主要介绍使用Java实现Navicat密码的加密与解密,通过本文,我们了解了如何利用Java语言实现对Navicat保存的数据库密... 目录一、背景介绍二、环境准备三、代码解析四、核心代码展示五、总结在日常开发过程中,我们有时需要处理各种软

Java 压缩包解压实现代码

《Java压缩包解压实现代码》Java标准库(JavaSE)提供了对ZIP格式的原生支持,通过java.util.zip包中的类来实现压缩和解压功能,本文将重点介绍如何使用Java来解压ZIP或RA... 目录一、解压压缩包1.zip解压代码实现:2.rar解压代码实现:3.调用解压方法:二、注意事项三、总

NGINX 配置内网访问的实现步骤

《NGINX配置内网访问的实现步骤》本文主要介绍了NGINX配置内网访问的实现步骤,Nginx的geo模块限制域名访问权限,仅允许内网/办公室IP访问,具有一定的参考价值,感兴趣的可以了解一下... 目录需求1. geo 模块配置2. 访问控制判断3. 错误页面配置4. 一个完整的配置参考文档需求我们有一

Linux实现简易版Shell的代码详解

《Linux实现简易版Shell的代码详解》本篇文章,我们将一起踏上一段有趣的旅程,仿照CentOS–Bash的工作流程,实现一个功能虽然简单,但足以让你深刻理解Shell工作原理的迷你Sh... 目录一、程序流程分析二、代码实现1. 打印命令行提示符2. 获取用户输入的命令行3. 命令行解析4. 执行命令

基于MongoDB实现文件的分布式存储

《基于MongoDB实现文件的分布式存储》分布式文件存储的方案有很多,今天分享一个基于mongodb数据库来实现文件的存储,mongodb支持分布式部署,以此来实现文件的分布式存储,需要的朋友可以参考... 目录一、引言二、GridFS 原理剖析三、Spring Boot 集成 GridFS3.1 添加依赖