发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文

2024-06-23 20:20

本文主要是介绍发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

SIGMOD 2024会议最近刚在智利圣地亚哥结束,有关高维向量检索/向量数据库/ANNS的论文主要有5篇,涉及混合查询(带属性或范围过滤的向量检索)优化、severless向量数据库优化、量化编码优化、磁盘图索引优化。此外,也有一些其它相关论文,比如FedKNN: Secure Federated k-Nearest Neighbor Search。

下面对这些论文进行一个简单汇总介绍。

SeRF : Segment Graph for Range-Filtering Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究带范围过滤的向量检索问题,作者基于HNSW提出了两种范围过滤图索引:SegmentGraph和2DSegmentGraph,它们分别用于处理范围约束是半界范围和任意范围的情况。由于构建一个考虑范围情况的索引会显著增加索引处理时间和索引尺寸,这篇论文主要对离线构建过程做了大量优化,从而大幅减少离线处理开销和显著压缩了索引。比如,SegmentGraph通过无损压缩实现了索引尺寸与原始HNSW相当。

RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究了一种新的量化(quantization)方法RaBitQ,讲高维向量编码为等维度的二值向量。与当前流行的PQ及其变体相比,RaBitQ具有如下优势:(1)距离评估是无偏的,具有理论概率误差界;(2)RaBitQ能实现更高的精度且只需更短的编码;(3)距离评估更高效。

Vexless : A Serverless Vector Data Management System Using Cloud Functions

在这里插入图片描述
这篇论文主要研究了在无服务器云函数(Cloud Funtions)下向量数据库的设计和优化,本文主要聚焦在三个方面:(1)Sharding策略;(2)通讯机制;(3)冷启动。本文基于Azure Functions对上述三个方面做了具体的优化,优化系统Vexless具有高弹性、低运营成本、细粒度计费模型等优点。

ACORN: Performant and Predicate-Agnostic Search Over Vector Embeddings and Structured Data

在这里插入图片描述
这篇论文主要研究混合查询问题,即带属性过滤约束的向量检索。当前混合查询技术路线主要有3类:前过滤、后过滤、混合过滤。本文的技术路线是沿着第3种,即为属性和向量构建混合索引,即设计专用于混合查询的索引。对于范围过滤,本文的方案可能仅适用于一些简单范围过滤情况,比如一定数量的年份,可能并不适用于具有非常精细的范围过滤约束的混合查询。

本文方案基于HNSW算法,优化HNSW的索引构建过程从而使构建的HNSW索引融合属性信息,主要思想与之前的NHQ、Filter-DiskANN等类似,都是把属性信息融入到近邻图索引中,从而使索引不仅包含向量近邻关系也考虑顶点之间的属性关系。ACORN构建了一个更“稠密”的HNSW,即邻居数更多了。显然,ACORN需要更多索引构建时间和索引内存占用开销。

执行混合查询时,若谓词的可选择性比较低,可能用前过滤比较适合,本文通过代价模型来根据查询谓词的可选择性来选择具体执行前过滤还是ACORN。

ACORN支持的过滤类型(y是谓词):(1)equals(y); (2)contains(y1,y2,…); (3)between(y1,y2); (4)regex-match(y).

在实验中,(3)过滤类型是年份。

Starling: An I/O-Efficient Disk-Resident Graph Index Framework for High-Dimensional Vector Similarity Search on Data Segment

在这里插入图片描述
本文提出了一种 I/O 高效的磁盘图索引框架Starling,以优化数据段内的数据布局和搜索策略。它有两个主要组成部分:(1)数据布局包含内存中导航图和重新排序的磁盘图索引,这增强了存储局部性并减少搜索路径长度,从而最大限度地减少磁盘带宽浪费; (2) 块搜索策略,旨在最大限度地减少向量查询执行期间昂贵的磁盘 I/O 操作。 在2GB内存和10GB磁盘容量的数据段上,Starling可容纳多达3300万个128维向量,提供超过0.9的平均精度以及低于1毫秒延迟的HVSS。与最先进的方法相比,Starling的吞吐量提高了43.9 倍,查询延迟降低了98%,同时保持了相同的精度水平。

这篇关于发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088180

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

CSS3中的字体及相关属性详解

《CSS3中的字体及相关属性详解》:本文主要介绍了CSS3中的字体及相关属性,详细内容请阅读本文,希望能对你有所帮助... 字体网页字体的三个来源:用户机器上安装的字体,放心使用。保存在第三方网站上的字体,例如Typekit和Google,可以link标签链接到你的页面上。保存在你自己Web服务器上的字

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

在Java中基于Geotools对PostGIS数据库的空间查询实践教程

《在Java中基于Geotools对PostGIS数据库的空间查询实践教程》本文将深入探讨这一实践,从连接配置到复杂空间查询操作,包括点查询、区域范围查询以及空间关系判断等,全方位展示如何在Java环... 目录前言一、相关技术背景介绍1、评价对象AOI2、数据处理流程二、对AOI空间范围查询实践1、空间查

Python+PyQt5实现MySQL数据库备份神器

《Python+PyQt5实现MySQL数据库备份神器》在数据库管理工作中,定期备份是确保数据安全的重要措施,本文将介绍如何使用Python+PyQt5开发一个高颜值,多功能的MySQL数据库备份工具... 目录概述功能特性核心功能矩阵特色功能界面展示主界面设计动态效果演示使用教程环境准备操作流程代码深度解

MySQL数据库实现批量表分区完整示例

《MySQL数据库实现批量表分区完整示例》通俗地讲表分区是将一大表,根据条件分割成若干个小表,:本文主要介绍MySQL数据库实现批量表分区的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录一、表分区条件二、常规表和分区表的区别三、表分区的创建四、将既有表转换分区表脚本五、批量转换表为分区

MySQL Workbench工具导出导入数据库方式

《MySQLWorkbench工具导出导入数据库方式》:本文主要介绍MySQLWorkbench工具导出导入数据库方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录mysql Workbench工具导出导入数据库第一步 www.chinasem.cn数据库导出第二步

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有