语音识别不太容易,需要找到一个更容易上的台阶

2024-01-09 04:38

本文主要是介绍语音识别不太容易,需要找到一个更容易上的台阶,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  也比如“唱歌”。科大讯飞1024开发者大会上,一位“虚拟人”就上台展示了如同真人般的语音交谈,她甚至还能唱歌——让我们再次回到世纪之交,2000年那会儿,雅马哈公司开始研发一款让电脑唱歌的软件“VOCALOID”。

  几年后,基于VOCALOID系统的一个声库“初音未来”,成了今天业界讨论“虚拟人”与“虚拟偶像”话题绕不开的名字。很多鼓吹虚拟偶像的媒体不会告诉你的是,她只是一个提线木偶,由编曲者告诉她该唱什么、该怎么唱,要细化到每一个音节都要用一大堆参数去指定她来工作,即使如此,你还是能一耳朵就听出来这是电子歌姬的声音。而在声音之外的形象上,她也不是官方塑造的产物,而是在创作者们的二次创作下,才逐渐拥有了更清晰的形态、更圆满的故事与性格。

  今天的虚拟人呢?他们早已学会了自主地完成唱歌的任务,比如科大讯飞的“虚拟人爱加”、从微软独立的“小冰”。这也是你看得见的人工智能。

  虚拟人“爱加”

  今天的虚拟人还要能听懂人说话,这是更漫长的长跑。

  2002年,科大讯飞的科学家们开始尝试让电脑听懂声音——从普通话等级考试的答题开始。

  为什么是普通话等级考试?当然是因为语音识别不太容易,需要找到一个更容易上的台阶。你想象一下这两样任务:

  A. 让电脑直接听你说话,猜猜你在说什么;

  B. 让电脑预先知道你在读什么,然后听听你读得对不对。

  哪个更容易实现?当然是B。这是技术路线“可达性”方面的原因,但还另有玄机。

这篇关于语音识别不太容易,需要找到一个更容易上的台阶的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/585941

相关文章

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

C#文件复制异常:"未能找到文件"的解决方案与预防措施

《C#文件复制异常:未能找到文件的解决方案与预防措施》在C#开发中,文件操作是基础中的基础,但有时最基础的File.Copy()方法也会抛出令人困惑的异常,当targetFilePath设置为D:2... 目录一个看似简单的文件操作问题问题重现与错误分析错误代码示例错误信息根本原因分析全面解决方案1. 确保

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

使用easy connect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题

《使用easyconnect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题》:本文主要介绍使用easyconnect之后,maven无法... 目录使用easGWowCy connect之后,maven无法使用,原来需要配置-DJava.net.pr

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装