LlamaIndex 实现 RAG(三)- 向量数据

2024-08-26 01:52

本文主要是介绍LlamaIndex 实现 RAG(三)- 向量数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

RAG 中使用向量存储知识和文档数据,召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作,不同 Embedding Model 参数不同,结果维度也不同,消耗的算力也不同。所以通常的做法都会在索引阶段(Embedding)把向量保存到向量数据库中,在召回阶段,向量数据库会根据选择的算法计算向量相似度,最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法,包括以下几部分

  1. 什么是 Embedding Model?
  2. 向量数据库的使用,包括 Chroma 和 PGVector
  3. 向量文档的管理,文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档,嵌入模型将文本作为输入,并返回一个向量,向量用于捕捉文本的语义。这些嵌入模型经过训练,能够以向量方式表示文本,并帮助实现语音搜索。从高层次来看,如果用户提出一个关于狗的问题,那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时,有许多方法可以使用(点积、余弦相似度等)。默认情况下,LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种,欧式距离(L2)、夹角余弦(Cosine)、内积(IP),向量数据库创建集合时,可以指定相似度算法,

欧式距离:点与点(矩阵与矩阵)之间的直线距离,越小相似度越高。
在这里插入图片描述

夹角余弦:向量之间的夹角,1 重合,-1 完全相反,0 为向量垂直,1 相似度最高。

在这里插入图片描述

向量内积:向量内积,越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑,参数、维度,可以在 HuggingFace 上查看 Embedding排名,选择语言,这里我们选择中文模型,可以看到 Qwen 系列排名都很靠前。在本文的案例中,使用的嵌入模型是 nomic-embed-text,维度 768,效果没有 Qwen 的好,模型相对较小,运行速度比较快,在 RAG 评估阶段,可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据,下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库,提供的功能包括向量的存储以及搜索,文档存储,全文本搜索,元数据过滤,多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库,包括两个方法,对文档做索引和查询索引,要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():chroma_client = chromadb.PersistentClient(path="./chroma_db")chroma_collection = chroma_client.get_or_create_collection("quickstart", embedding_function= embedding_functions.OllamaEmbeddingFunction(model_name="nomic-embed-text",url="http://10.91.3.116:11434"),metadata={"hnsw:space": "cosine"})vector_store = ChromaVectorStore(chroma_collection=chroma_collection)return vector_storedef index_doc_chroma():storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_indexdef get_doc_index_chroma():'''解析 PDF 并保存到 Chroma'''# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)return vector_index
PGVector

PGVector 是 Postgres 数据库 Vector 扩展,本文使用的是 PGVector.rs,是 PGVector 的 Rust 版本,性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker,Docker 镜像最近都不好用了,找到了一个可以用的镜像地址,需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():vector_store = PGVectoRsStore(client=client)return vector_storedef index_doc_pg():storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新,例如文档内容的变更,文档管理主要是要处理更新和删除,文档的更新可能会更新文档的多个地方,很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新,我们就是使用删除再插入的方式。如果文档变更了,我们先删除之前的,在插入更新的,问题就变为我们只要能够找到之前文档进行删除即可,在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法,调用 delete 方式需要出入一个 doc_id,下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的,这个 Id 是在创建 Document 时生成的,下图来自 SimpleDocumentStore,红框内就是 DocId。
在这里插入图片描述
所以,有了这些数据,自己就可以很容易的实现一个文档管理系统。

  1. 首先保存文档创建时的数据,尽量不用SimpleDocumentStore,使用关系数据库保存,易于查询,文件保存在对象存储上。
  2. 删除时,根据文件路径找到对应的 Id,这里要保证路径的唯一性。
  3. 对新的文档进行索引,并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用,向量数据库产品很多,至少有几十个。其实向量数据没有那么复杂,简单来说,就是向量的存储加查询,查询是通过上面所说的相似度算法,最后根据得分排序。由于计算量比较大,现在很多向量数据库厂商使用了云资源,其实向量最好能用能用现有的数据库,这样就不用新引入组件,比如手 PGVec、Mongo 等等。

最后,在项目中,还是要根据具体情况进行选型,要看你的项目的现有存储架构,对于性能要求高的可以考虑使用 Redis,Redis 是支持向量查询的,而且性能也不错。

这篇关于LlamaIndex 实现 RAG(三)- 向量数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107215

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库