自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

本文主要是介绍自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR

 

一、             课题来源及研究的目的和意义;

据有关机构抽样调查,我国有残疾人约6000万,其中聋哑人约有1300万,18岁以下应受教育的聋哑人约达100万,这是一个庞大的弱势群体。他们在学习、工作和生活上有许多难于想象的艰辛和障碍,在成长和发展的道路上要比常人付出多倍的努力。聋哑儿童的教育是一项充满爱心、充满社会主义人道精神的光辉事业。也是我们整个社会义不容辞的责任。

    欧、美、香港等一些经济发达国家和地区聋教育起步很早、水平很高。在传统的教学方法、教学手段、仪器配备等方面我国与他们差距较大。在现阶段,国内外聋教育、康复机构较注重专用设备的研究和配备,而在现代化教学技术的应用,尤其在网络、计算机、自动语音识别技术等最新科技成果应用方面,我国与国外尚存在着一定的差距,基本上处于起步阶段。事实上,现代信息以及其他科技、医学等领域的新理论、新技术和新设备应用到聋人康复、教育等方面后,必将使世界聋教育的观念发生重大改变,从而也给聋校的教育改革带来巨大的影响,我国的聋教育必须抓住机遇,深入进行改革和创新,努力提高学校的教育质量,跟上时代的步伐。

    在全世界聋哑儿童的教育领域里,从现代教育技术的应用而言,我国与国外的差距不大,这是我国聋教育事业赶超世界水平的难得机遇。本课题率先把现代信息技术、现代教育技术与聋教育的特殊需求相结合,通过将信息技术及软件开发成果应用于聋教育,并对实施对象、实施方法及效果进行研究、对比,总结出符合中国国情的现代教育技术在聋哑儿童教育领域的实施经验。

    本课题旨在利用现代教育技术和手段,基于自动语音识别技术(ASR),在聋人教育的技术层面上,进行研究、改革、实践,注重培养聋哑儿童学习的兴趣,使其掌握收集、分析和处理信息的能力,掌握自学和终身学习的现代化手段,提高自身素质和适应社会生活的能力,使其能以平等的地位和均等的机会参与社会生活,共享社会物质文化成果。

 

二、             国内外在该方向的研究现状及分析;

聋哑人语音训练的研究国外始于六十年代中期,根据反馈途径的不同,大致可以分为两类:利用聋哑人的残存听力借助助听器听取自身发音已纠正发音的听觉反馈训练系统和通过观察CRT上根据自身发音经处理后所获得的特征参数来纠正发音的视觉反馈训练系统。前者造价低,但效果较差。对重听、重度耳聋、全聋的患者效果更差或完全无效。后者由于通过视觉反馈,几乎适用于一切聋哑人,训练效果也较好。在早期研制时视觉反馈系统成分较高,随着计算机和大规模集成电路技术的发展,尤其是语音专用芯片和单片机的出现,成本已大大降低。

目前,国外已经有多种视觉辅助语音训练系统的报道。这些系统基本上都是将受训者所发语音进行处理后,提取语音的特征(例如:强度、持续时间、频谱、基频、共振峰等),与标准发音的特征同时显示在CRT上,让受训者对自己的发音与标准音进行比较,逐步纠正自己的发音。很遗憾,这种系统所显示的信息对一般的受训者来说太转业了,不易为他们,尤其是聋哑儿童所理解,因此影响了训练效果。这是这类系统的最大缺点。

至于本课题的重点,自动语音识别研究,开始于五十年代初,当时电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。随着计算机技术的飞速发展,进入九十年代后,语音识别的研究进一步升温,除了连续语音听写机之外,还出现了诸多实用化的研究方向。IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正趋于成熟。目前,市场上还有很多比较成熟的语音ASR产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、SUN公司倡导的JavaSpeechAPI、IBM的Dutty++等。他们大部分能识别英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。从整个语音识别研究的发展前景上看,语音识别系统的鲁棒性(Robust)将是未来几年的研究重点之一。因为这是语音识别系统由实验转为实用过程中的一个最为迫切最关键的问题。而针对聋童的自动语音识别系统,将是一个不可忽视的研究重点。

我国的语音识别研究起步较晚,但由于汉语语音识别的重要性日益突出,最近十年的发展十分迅速。所以相应从九十年代开始的自动语音识别的研究,我国基本可以和国外同步。目前,国内从事这方面研究机构主要有:清华大学、中国科学院声学研究所、中国科学院自动化研究所,香港大学、中国科学技术大学、国防科技大学、北京邮电大学等等。

 

三、             主要研究内容;

ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。而针对聋童教育的ASR,也将运用到包含教育学、教育技术学在内的众多学科。

本课题基于语音识别技术,即将受训者所发语音经处理后,计算与标准语音及邻近语音的发音近似率,并在CRT上显示其结果,以指导受训者的发音逐步向标准语音靠拢。该系统显示的是与标准语音及其他类似音的发音近似率,并辅以发音的口型图显示,对受训者来说,显示信息比较直观,训练效果好。

具体而言,本课题重点研究开发适合聋哑儿童计算机辅助教学中应用的自动语音识别系统,即小(特定)词汇量、非特定聋童、连续自适应语音识别系统,并且提供方便前台(计算机辅助教学平台)调用的接口。

 

四、             研究方案及进度安排,预期达到的目标;

    拟采取的研究方法和技术路线(包括研究工作的总体安排、步骤和进度等):

本课题以Java语言为基础,结合自动语音识别技术的算法原理。

采取以下方式:

阶段一:分析阶段,研究诸多已有学术成果,确定具体的算法

        2005年1月~2005年2月

阶段二:设计阶段,设计出流程图。

        2005年2月~2005年3月

阶段三:开发程序,按照设计阶段流程,编码。

        2005年3月~2005年4月

阶段四:测试维护程序,按照实际情况,进行实用测试。

        2005年4月~2005年5月

阶段五:实现产品投入,完成毕业设计任务。

其中1到3阶段并不是明确界定的,进行螺旋式开发

研究的阶段成果及最终成果:

阶段性成果:

2005年1月,提交可行性调研报告;

2005年3月,完成流程图的设计;

2005年4月,编码完成;

2005年5月,软件测试完成,提交最终的科研成果。

 

五、             为完成课题已具备和所需的条件和经费;

1.  已经具备的条件:ASR的理论研究成果、相关JSAPI文档等

2.  所需条件:开发聋童计算机辅助教学平台

3.  经费问题:在实际开发中,考虑到版权问题,可能需要购买一些相关软件,或者咨询费等。

 

六、             预计研究过程中可能遇到的困难和问题以及解决的措施;

1.  理论

问题:由于现在语音识别的理论相当成熟,但涉及的学科知识广泛,故本人在某些方面不能及时地解决

解决措施:咨询相关专家或者查阅相关资料

2.  技术

问题:现在比较成熟开发语言采用的是C/C++等,而本课题采用的是Java,可能存在参考资料少,开发困难

解决措施:使用并完善已经发布的一系列JavaSpeechAPI

 

七、             主要参考文献。

[1] 陈汝琛等 基于语音识别技术的聋哑人视觉辅导语音训练系统 中国生物医学工程学报 1996.12

[2] 李建民等 基于汉语语音特点的大词表语音识别系统的研究 计算机学报 1992.5

[3] 郝杰 基于经典隐马尔可夫模型的汉语连续语音识别系统 电子与信息学报 2002.7

[4] 王昱 语音识别自适应技术的研究与实现 硕士学位论文 2000.5

[5] 雷静 语音识别技术的研究及基本实现 硕士学位论文 2002.3.1

[6] 陈荔龙 连续语音识别搜索算法的研究与应用 硕士学位论文 2002.3.1

[7] 王志强 基于GMM的声音信号分类器研究 硕士学位论文 2003.6.30

[8] 曹枝墙 自动语音应答系统的设计与实现 硕士学位论文 2004.2.1

[9] 王越 基于HMM模型的嵌入式语音识别软件研究 硕士学位论文 2003.3.1

[10]张军 抗噪声语音识别技术的研究 博士学位论文 2003.5.1

[11]王宁 基于音素的特定人大词汇量汉语语音识别算法研究硕士学位论文 2002.2.1

[12]盛青 语音自动识别技术(ASR)及其软件实时实现 硕士学位论文 2001.3.1

[13]Sun公司 Java speech API programmer’s guide 开发指南 1998.10.26

这篇关于自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828585

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的