语音识别不太容易,需要找到一个更容易上的台阶

2024-01-09 04:38

本文主要是介绍语音识别不太容易,需要找到一个更容易上的台阶,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  也比如“唱歌”。科大讯飞1024开发者大会上,一位“虚拟人”就上台展示了如同真人般的语音交谈,她甚至还能唱歌——让我们再次回到世纪之交,2000年那会儿,雅马哈公司开始研发一款让电脑唱歌的软件“VOCALOID”。

  几年后,基于VOCALOID系统的一个声库“初音未来”,成了今天业界讨论“虚拟人”与“虚拟偶像”话题绕不开的名字。很多鼓吹虚拟偶像的媒体不会告诉你的是,她只是一个提线木偶,由编曲者告诉她该唱什么、该怎么唱,要细化到每一个音节都要用一大堆参数去指定她来工作,即使如此,你还是能一耳朵就听出来这是电子歌姬的声音。而在声音之外的形象上,她也不是官方塑造的产物,而是在创作者们的二次创作下,才逐渐拥有了更清晰的形态、更圆满的故事与性格。

  今天的虚拟人呢?他们早已学会了自主地完成唱歌的任务,比如科大讯飞的“虚拟人爱加”、从微软独立的“小冰”。这也是你看得见的人工智能。

  虚拟人“爱加”

  今天的虚拟人还要能听懂人说话,这是更漫长的长跑。

  2002年,科大讯飞的科学家们开始尝试让电脑听懂声音——从普通话等级考试的答题开始。

  为什么是普通话等级考试?当然是因为语音识别不太容易,需要找到一个更容易上的台阶。你想象一下这两样任务:

  A. 让电脑直接听你说话,猜猜你在说什么;

  B. 让电脑预先知道你在读什么,然后听听你读得对不对。

  哪个更容易实现?当然是B。这是技术路线“可达性”方面的原因,但还另有玄机。

这篇关于语音识别不太容易,需要找到一个更容易上的台阶的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/585941

相关文章

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

使用easy connect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题

《使用easyconnect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题》:本文主要介绍使用easyconnect之后,maven无法... 目录使用easGWowCy connect之后,maven无法使用,原来需要配置-DJava.net.pr

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像