全球首推语音定制产品,百度地图背后的语音技术到底有多强大?

本文主要是介绍全球首推语音定制产品,百度地图背后的语音技术到底有多强大?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文|李永华

来源|智能相对论(aixdlun)

地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回。

但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争“杀招”,很可能一招制胜,让战况不再胶着。

你可能经常使用XX明星的声音作为手机地图的提示音,但你可能没有想到,有一天“前面路口左转”这样的发音准确、播音员级别的语音播报,会通过“你的声音”发出来。

近日,百度地图推出“语音定制功能”,简而言之,用户通过手机就能自主录制与合成个人完整语音包,可以同步应用到地图全端语音场景,如驾车导航、语音交互、智能旅游等。

从技术角度看,如果了解为每个人进行“语音定制”的技术难度的话,就知道百度先发制人推出的“语音定制功能”,或已经让行业对手“无计可施”。这背后是百度大脑语音能力的强力加持,是深厚技术积淀的产物。

毫无疑问,百度地图出的这一招,已经没有人能够在短时间内接得起。

而从整个行业角度看,语音定制功能的加入,也让“AI+地图”组合的 “完全体”获得了进一步进化、升级。

百度地图事业部总经理李莹

盘点语音合成:百度地图AI实力成为竞争“杀招”

百度地图此次推出的语音定制功能,依赖的技术即百度语音独创的风格迁移技术MEITRON模型。

该技术实际上已经“露过脸”,大型公益节目《等着我》有一期讲述了91岁老兵袁林昌寻找老排长的故事,老排长2004年即已去世,但技术团队采集老排长的语音素材,利用MEITRON对音色、情感、风格等进行独立的编码建模,最终合成了老排长声音发出的句子,让老兵袁林昌与观众感动落泪。

智能相对论认为,同样作为AI语音合成技术,MEITRON价值和优势在于三个方面:

素材要求低,一般仅需提供20句话的素材,在百度地图上,用户仅需跟随录制20句、每句15个字左右的语句即完成数据采集;

训练时间短,在百度地图上,一般仅需20分钟即可完成训练(实测往往15分钟即可完成),合成个性化的目标声音,用户无需漫长等待;

“情感”丰富,即合成的语音可以注入不同的情感,效果变得更加逼真、丰富,就好像是某个人真的在说一样。

直接说这些优势可能大家没有直观感受,当我们盘点和回顾语音合成的发展史,就会发现MEITRON这些卓有成效的能力对整个语音合成领域的重要价值。在它的加持下,百度地图的语音定制场景应用直接摘取了“目标声音个性化”这颗皇冠明珠,让竞争对手不得不摆手放弃追赶。

1、大面上,AI已经解决语音合成的几个基本问题

事实上,在MEITRON之前,AI深度介入语音合成领域,已经解决了行业的三大基本痛点问题:

韵律问题:可理解为符合正常人聊天语态,例如句子的停顿,重读等要求,计算机过去往往比较机械,听起来不自然,例如,过去合成“你真好看”四字简单的句子,可能读成“你真/好看”等,现在AI可以实现“你/真好看”相对正确的短句和顿挫,或者如普通人一样还能在“真”字上加上重音;

音色拟合问题:即不只有一个单调的女声,还可以拟合其他想要的种类的声音;

情感拟人问题:即说出的话有不同的“调调”,个人风格浓厚,而不是冰冷的、无情感的输出。

2、AI长时间难以解决“目标声音个性化”问题,MEITRON出手

但是,AI解决的语音合成三大基本问题,只是在“商用层面”,尚不能到达“民用层面”。

形象地理解,过去几乎所有的地图产品都能针对一个特定的“目标声音”进行采集和训练,实现有韵律、有音色、有情感,百度地图的汤唯、杨洋、郭采洁、韩乔生、柳岩,高德地图的郭德纲、林志玲等,都是如此。

早期这种“商用采集”的特点是“目标声音”的提供者,需要配合进行大量的采集工作,并等待十天半个月甚至更长时间的合成,才能生成我们在地图APP里熟悉的明星语音包。如果面向海量的普通用户,这种成本平台无法承受,用户也很难谈得上有什么体验。

所以,地图产品的语音包早期只能一个一个来,只在商用层面无法抵达“民用”。

而问题恰恰又在于,AI浪潮下,所有面向大众的产品都在谈个性化,地图产品概莫能外。个性化需求只要生根就会发芽、长大,在AI语音合成的支持下,有了不同的明星语音包,越来越多的用户潜在也会有的更为个性化的语音需求,谁能激发和实现这种需求,谁就赢得了无法追赶的竞争优势。

将目标声音“个性化”,千人千面、每个人定制自己想要的语音,无疑成了语音合成皇冠上的明珠。

此时,MEITRON出来了,百度地图语音定制功能落地了,20句15字左右的跟读素材采集,实测15分钟左右的合成速度,驾车导航、语音交互、智能旅游的多样化个人语音应用……当百度地图打出这张技术+体验牌时,就是彻底的杀招。

一旦把地图APP中用户日常接触最频繁的语音改造成用户自己想要的声音,也意味着移动APP们共同的梦想——为每个用户打造只属于自己的“专属APP”得到切实的落地,APP产品梦寐以求的高用户粘性也有了额外支撑。

直白地说,如果百度地图APP独有用户个人或者想要的某种特质语音,他可能就更加没有理由再去使用其他产品。

百度语音首席架构师贾磊

出彩的语音定制,本质仍是百度地图“AI+地图”策略的重要一环

语音定制是百度地图的竞争杀招,但它仍旧处在百度地图“AI+地图”的整体招式之中。

这不是第一次AI技术在百度地图的应用。

2018年,百度AI开发者大会曾现场演示一段长达60多字的服务请求:“我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧”,百度地图语音助手顺利接受语音输入,自然流畅地提供了导航服务。

这个过程中,百度地图的语音技术迈过了AI语音操控的三道坎:听清,在类似驾车等嘈杂环境中听清楚语音;听懂,识别复杂语句的真实意图,尤其是适应用户非标准的、随性的请求;满足,将意图与后台操作对应,满足用户真实诉求。只有这样,所谓“全语音操控”才能坐实。

而这些同样得益于百度的语音技术能力——从SMLTA模型(一种大大提高语音理解能力的技术),到小度全双工连续交互技术(连续多次指令,不需要重复说小度小度这样的唤醒词,只要按正常人与人交流的方式即可)以及更多百度AI的亮眼语音技术来看,百度地图的全语音操控也并不意外。

在语音之外,百度地图还有许多与前沿科技结合的交互技术来提升用户体验。

例如,百度地图利用AR现实增强技术,在各个场景中,为用户提供沉浸式实景地图使用体验。比如,AR双屏步导功能可以同步显示常规地图与实景画面,用户只需要跟随实景画面中的箭头图案即可到达目的地;AR周边探索功能可显示当前场景内美食、娱乐、购物、丽人、运动、银行、酒店、景点、楼宇等POI点(兴趣点),点击即可导航;此外,地图常常被使用的旅游场景中,AR导览可以屏幕上标记当前景区的景点。

回过头来看,自从2018年3月百度地图并入AIG后,借助AI技术的百度地图焕发出全新的生机,凭借各种颠覆性的用户体验创新,百度地图与竞品的差异化程度逐步加深。

定制语音功能的推出,更标志着百度地图在竞争中已经升维,以拥抱未来的新一代产品姿态参与竞争。

可以料想的是,未来,这样借助AI等前沿技术的细节体验打磨想必会更多,技术上的绝对领先让百度地图不会再像过去那样在竞争中见招拆招不分胜负,招招必杀的2.0时代或已经开启。

结语

语音技术在百度地图上有了最佳实践,其实也是百度AI技术本身硬核实力的表现。除了百度地图,百度硬核的语音技术一直在赋能百度系内部各大产品,例如:

语音输入用户认知、使用状况、准确率遥遥领先行业的百度输入法,已经凭借语音输入获得了全新的差异化竞争优势;全新体验的语音搜索彻底解放用户双手,“所说即所得”,简单动动嘴即可探索世界,这为搜索注入了全新的动能;出货量国内第一、全球领先的小度音箱,区别竞品听不懂、乱回话的尴尬状况,为智能音箱的智能和体验正名……

百度AI业界公认最强,而语音定制功能反映出语音技术更是业界翘楚。从最深层的技术能力,到最表层的用户体验,百度语音技术凭借内部产品和外部合作伙伴打通了全部链路、进行了全面落地化的布局,正在成为百度AI的重头戏。

【完】

智能相对论(微信id:aixdlun):AI新媒体,今日头条青云计划获奖者TOP10,澎湃新闻科技7月榜单top5,著有《人工智能 十万个为什么》,重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

这篇关于全球首推语音定制产品,百度地图背后的语音技术到底有多强大?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/531222

相关文章

springboot项目中整合高德地图的实践

《springboot项目中整合高德地图的实践》:本文主要介绍springboot项目中整合高德地图的实践,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一:高德开放平台的使用二:创建数据库(我是用的是mysql)三:Springboot所需的依赖(根据你的需求再

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Java中的登录技术保姆级详细教程

《Java中的登录技术保姆级详细教程》:本文主要介绍Java中登录技术保姆级详细教程的相关资料,在Java中我们可以使用各种技术和框架来实现这些功能,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录1.登录思路2.登录标记1.会话技术2.会话跟踪1.Cookie技术2.Session技术3.令牌技

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Java使用WebView实现桌面程序的技术指南

《Java使用WebView实现桌面程序的技术指南》在现代软件开发中,许多应用需要在桌面程序中嵌入Web页面,例如,你可能需要在Java桌面应用中嵌入一部分Web前端,或者加载一个HTML5界面以增强... 目录1、简述2、WebView 特点3、搭建 WebView 示例3.1 添加 JavaFX 依赖3

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

使用Python和Pyecharts创建交互式地图

《使用Python和Pyecharts创建交互式地图》在数据可视化领域,创建交互式地图是一种强大的方式,可以使受众能够以引人入胜且信息丰富的方式探索地理数据,下面我们看看如何使用Python和Pyec... 目录简介Pyecharts 简介创建上海地图代码说明运行结果总结简介在数据可视化领域,创建交互式地

一文带你搞懂Python中__init__.py到底是什么

《一文带你搞懂Python中__init__.py到底是什么》朋友们,今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py,有些人可能听说过它是“包的标志”,也有人觉得它“没... 目录先搞懂 python 模块(module)Python 包(package)是啥?那么 __in

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4