语音交互中ONESHOT设备端实现

2023-10-16 04:50

本文主要是介绍语音交互中ONESHOT设备端实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、目的

之前的几篇博文中我们介绍了语音交互框架、语音SDK设计,本篇博文中重点介绍语音交互中的ONESHOT设计。

那什么是语音ONESHOT呢?简单的讲,就是用户唤醒词与要识别的内容连说。

传统的语音交互模式一般是这种情形:

你好小乐(--唤醒提示音播放--提示音播放完毕--)我想听歌---等待对话结果

        播放提示音期间不拾音

 

此种交互方式的优点是语音唤醒后,由于先放唤醒提示音,此过程中设备不拾音,所以不会误拾音;当然缺点也很明显,对于急性子的用户,可能没等提示音播放完毕就开始说话,导致识别收到的音频头部缺失,导致用户体验很差。

 

那ONESHOT交互模式是怎样的呢?

你好小乐,我想听歌

    此刻提示音也正在播放

呈现给用户的体验是,唤醒后直接说话,无论设备会不会播报唤醒提示音。

那么这种实现有哪些技术挑战呢?

设备必须支持录取播放回路音频,用于回声消除处理,并且此项处理必须能很好的消除回声。

二、分析

下面是两个实际音频录音,内容都是“你好小乐,我想听歌”

慢交互

慢交互

 

上图可以看到,唤醒和我想听歌之间有接近1s的静音,这个时间内对于传统交互模式下,有可能是在播放提示音。在ONESHOT交互模式下可能只是用户的说话停顿(突然忘词)。

快交互

快交互

上图可以看到,唤醒和我想听歌之间基本没有停顿,用户一句话说出意图。并且我想听歌这句话说出的时候设备也在播放提示音。

三、设计

那怎么一种ONESHOT才是一种合理的交互方式呢?作者认为ONESHOT模式下要同时兼容慢交互和快交互这两种情形。

由于一些技术瓶颈,例如唤醒某些时候可能会提前唤醒,导致唤醒时刻开始获取的音频数据可能包含部分唤醒残留音,如下图:

提前唤醒

上图可以看到唤醒残留音部分与我想听歌间有较长的静音,那么在设计ONESHOT的时候如果能够过滤掉残留音,只将后面的我想听歌的音频进行识别,一样可以完美的输出识别结果。

至于如何过滤残留音,相信聪明的你应该已经知道怎么做了,哈哈,这边就不详细描述了。

 

至此,如何实现ONESHOT交互方式也介绍完毕。

这篇关于语音交互中ONESHOT设备端实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/219168

相关文章

IDEA如何实现远程断点调试jar包

《IDEA如何实现远程断点调试jar包》:本文主要介绍IDEA如何实现远程断点调试jar包的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录问题步骤总结问题以jar包的形式运行Spring Boot项目时报错,但是在IDEA开发环境javascript下编译

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

java中BigDecimal里面的subtract函数介绍及实现方法

《java中BigDecimal里面的subtract函数介绍及实现方法》在Java中实现减法操作需要根据数据类型选择不同方法,主要分为数值型减法和字符串减法两种场景,本文给大家介绍java中BigD... 目录Java中BigDecimal里面的subtract函数的意思?一、数值型减法(高精度计算)1.

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元