搜索中关于稀疏检索和稠密向量检索的召回效果比较

2024-02-22 00:04

本文主要是介绍搜索中关于稀疏检索和稠密向量检索的召回效果比较,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不同检索方式说明

最近在做搜索召回提升相关的研究工作。对比了稀疏检索和稠密向量检索的效果。其中使用的搜索引擎为elasticsearch8.x版本。稀疏检索包括BM25的检索方式,以及es官方在8.8之后版本提供的稀疏向量模型的方式。稠密向量检索,是指借助机器学习的模型做文本嵌入,然后用es8.x以后版本提供的向量检索。

测试数据说明

测试数据包括了中文和英文,涉及了法律和新闻数据。

 一、先说结论

相比较BM25检索,借助机器学习模型做文本嵌入的向量检索方式,有不错的效果。

同时,ES的稀疏向量模型,在英文场景下,相比较BM25和向量检索,仍然取得了更好的召回率提升效果。

BM25和向量检索以及稀疏向量检索之间的关系?

从测试数据来看,三者之间是互补的。

二、三种不同召回方式成功召回率对比效果

声明:这里取top50,如果命中标准答案则认为召回。

以一个测试集为例(法律数据),该测试集是有人工整理的198个问题,包含了问题和答案,相对质量较高。

在下图中,可以看到BM25成功召回177(89%)。

向量检索成功召回156个(79%)

稀疏向量成功召回187个( 94%)

结论一:稀疏向量召回率 >BM25 > 稠密向量

只看每一种召回方式,召回效果。

稀疏向量成功召回187( 94%)   >  BM25 成功召回177(89%)>  稠密向量成功召回156 (79%)

请注意这个结论!!! 其中向量检索的效果,会和向量模型有着非常密切的关系,会和测试数据集有非常密切的关系。关于BM25的召回效果好于向量检索,我自己也是不认可的。请看结论四。

结论二:三者是可以互补的

再看三路混合检索整体的召回效果,成功召回189,召回率95%,整体大于任何一个单个检索方式。

结论三:BM25 和 稠密向量可以互补。

稀疏向量是收费才能使用的功能,且只针对英文效果出色。所以这里只看Bm25和稠密向量的方式。

统计1:其中BM25召回成功的,向量检索召回失败的有27个。13%

统计2:其中向量召回成功,但是BM25召回失败的有6个。3%

结论四:BM25是否真的好于向量检索?

其中向量检索,严重依赖外部的文本嵌入的模型,假如模型没有训练过某个领域的知识,则在向量embedding过程中,一定会都是语义,所以效果表现不佳,甚至是低于Bm25的召回效果。

于是又对比了不同的测试数据集: 这次是中文的新闻数据。共1704个case。向量召回率98% >bm

25召回率 95%

即使这样,我依然无法下一个结论说向量检索效果比BM25好,或者说差。还是取决于文本嵌入模型的能力,以及测试集样本。但是总是可以得出,而知没有绝对的谁领先,而是互补,1+1 >2的效果!

其中BM25 成功召回 1619,召回率95%。

其中向量 成功召回 1675,召回率98.2%。

 

整体召回率,98.8%。两者可以互补的结论依然成立。

 

三、稀疏向量的提升效果

这是一个全新的测试数据集。也是法律数据和法律问题。与上边的测试集不同的是,这是人工整理的,没有杂质数据的干扰。

在英文场景下,稀疏向量的召回率相比较BM25,提升明显!提升到了100%提升了14%

topK召回率有很大提升,top1提升了31%,top5提升了28.5%,top10提升了22%

四、应该如何选用召回方式

其中Bm25 是花费资源最少得检索方式。向量检索是花费资源最多的方式,因为要使用模型,其并发能力会受到资源限制。稀疏向量需要依赖官方提供的模型,是收费的功能,并且价格昂贵,且只支持英文场景,无法做多语言的混合场景,亲测中英混合的情况下,效果下降明显。

这篇关于搜索中关于稀疏检索和稠密向量检索的召回效果比较的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/733519

相关文章

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

C# 比较两个list 之间元素差异的常用方法

《C#比较两个list之间元素差异的常用方法》:本文主要介绍C#比较两个list之间元素差异,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 使用Except方法2. 使用Except的逆操作3. 使用LINQ的Join,GroupJoin

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

Kotlin Compose Button 实现长按监听并实现动画效果(完整代码)

《KotlinComposeButton实现长按监听并实现动画效果(完整代码)》想要实现长按按钮开始录音,松开发送的功能,因此为了实现这些功能就需要自己写一个Button来解决问题,下面小编给大... 目录Button 实现原理1. Surface 的作用(关键)2. InteractionSource3.

使用WPF实现窗口抖动动画效果

《使用WPF实现窗口抖动动画效果》在用户界面设计中,适当的动画反馈可以提升用户体验,尤其是在错误提示、操作失败等场景下,窗口抖动作为一种常见且直观的视觉反馈方式,常用于提醒用户注意当前状态,本文将详细... 目录前言实现思路概述核心代码实现1、 获取目标窗口2、初始化基础位置值3、创建抖动动画4、动画完成后

uniapp小程序中实现无缝衔接滚动效果代码示例

《uniapp小程序中实现无缝衔接滚动效果代码示例》:本文主要介绍uniapp小程序中实现无缝衔接滚动效果的相关资料,该方法可以实现滚动内容中字的不同的颜色更改,并且可以根据需要进行艺术化更改和自... 组件滚动通知只能实现简单的滚动效果,不能实现滚动内容中的字进行不同颜色的更改,下面实现一个无缝衔接的滚动

Java实现图片淡入淡出效果

《Java实现图片淡入淡出效果》在现代图形用户界面和游戏开发中,**图片淡入淡出(FadeIn/Out)**是一种常见且实用的视觉过渡效果,它可以用于启动画面、场景切换、轮播图、提示框弹出等场景,通过... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

Flutter实现文字镂空效果的详细步骤

《Flutter实现文字镂空效果的详细步骤》:本文主要介绍如何使用Flutter实现文字镂空效果,包括创建基础应用结构、实现自定义绘制器、构建UI界面以及实现颜色选择按钮等步骤,并详细解析了混合模... 目录引言实现原理开始实现步骤1:创建基础应用结构步骤2:创建主屏幕步骤3:实现自定义绘制器步骤4:构建U

Python使用DeepSeek进行联网搜索功能详解

《Python使用DeepSeek进行联网搜索功能详解》Python作为一种非常流行的编程语言,结合DeepSeek这一高性能的深度学习工具包,可以方便地处理各种深度学习任务,本文将介绍一下如何使用P... 目录一、环境准备与依赖安装二、DeepSeek简介三、联网搜索与数据集准备四、实践示例:图像分类1.