LlamaIndex 实现 RAG(三)- 向量数据

2024-08-26 01:52

本文主要是介绍LlamaIndex 实现 RAG(三)- 向量数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

RAG 中使用向量存储知识和文档数据,召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作,不同 Embedding Model 参数不同,结果维度也不同,消耗的算力也不同。所以通常的做法都会在索引阶段(Embedding)把向量保存到向量数据库中,在召回阶段,向量数据库会根据选择的算法计算向量相似度,最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法,包括以下几部分

  1. 什么是 Embedding Model?
  2. 向量数据库的使用,包括 Chroma 和 PGVector
  3. 向量文档的管理,文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档,嵌入模型将文本作为输入,并返回一个向量,向量用于捕捉文本的语义。这些嵌入模型经过训练,能够以向量方式表示文本,并帮助实现语音搜索。从高层次来看,如果用户提出一个关于狗的问题,那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时,有许多方法可以使用(点积、余弦相似度等)。默认情况下,LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种,欧式距离(L2)、夹角余弦(Cosine)、内积(IP),向量数据库创建集合时,可以指定相似度算法,

欧式距离:点与点(矩阵与矩阵)之间的直线距离,越小相似度越高。
在这里插入图片描述

夹角余弦:向量之间的夹角,1 重合,-1 完全相反,0 为向量垂直,1 相似度最高。

在这里插入图片描述

向量内积:向量内积,越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑,参数、维度,可以在 HuggingFace 上查看 Embedding排名,选择语言,这里我们选择中文模型,可以看到 Qwen 系列排名都很靠前。在本文的案例中,使用的嵌入模型是 nomic-embed-text,维度 768,效果没有 Qwen 的好,模型相对较小,运行速度比较快,在 RAG 评估阶段,可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据,下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库,提供的功能包括向量的存储以及搜索,文档存储,全文本搜索,元数据过滤,多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库,包括两个方法,对文档做索引和查询索引,要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():chroma_client = chromadb.PersistentClient(path="./chroma_db")chroma_collection = chroma_client.get_or_create_collection("quickstart", embedding_function= embedding_functions.OllamaEmbeddingFunction(model_name="nomic-embed-text",url="http://10.91.3.116:11434"),metadata={"hnsw:space": "cosine"})vector_store = ChromaVectorStore(chroma_collection=chroma_collection)return vector_storedef index_doc_chroma():storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_indexdef get_doc_index_chroma():'''解析 PDF 并保存到 Chroma'''# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)return vector_index
PGVector

PGVector 是 Postgres 数据库 Vector 扩展,本文使用的是 PGVector.rs,是 PGVector 的 Rust 版本,性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker,Docker 镜像最近都不好用了,找到了一个可以用的镜像地址,需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():vector_store = PGVectoRsStore(client=client)return vector_storedef index_doc_pg():storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新,例如文档内容的变更,文档管理主要是要处理更新和删除,文档的更新可能会更新文档的多个地方,很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新,我们就是使用删除再插入的方式。如果文档变更了,我们先删除之前的,在插入更新的,问题就变为我们只要能够找到之前文档进行删除即可,在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法,调用 delete 方式需要出入一个 doc_id,下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的,这个 Id 是在创建 Document 时生成的,下图来自 SimpleDocumentStore,红框内就是 DocId。
在这里插入图片描述
所以,有了这些数据,自己就可以很容易的实现一个文档管理系统。

  1. 首先保存文档创建时的数据,尽量不用SimpleDocumentStore,使用关系数据库保存,易于查询,文件保存在对象存储上。
  2. 删除时,根据文件路径找到对应的 Id,这里要保证路径的唯一性。
  3. 对新的文档进行索引,并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用,向量数据库产品很多,至少有几十个。其实向量数据没有那么复杂,简单来说,就是向量的存储加查询,查询是通过上面所说的相似度算法,最后根据得分排序。由于计算量比较大,现在很多向量数据库厂商使用了云资源,其实向量最好能用能用现有的数据库,这样就不用新引入组件,比如手 PGVec、Mongo 等等。

最后,在项目中,还是要根据具体情况进行选型,要看你的项目的现有存储架构,对于性能要求高的可以考虑使用 Redis,Redis 是支持向量查询的,而且性能也不错。

这篇关于LlamaIndex 实现 RAG(三)- 向量数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107215

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

如何在 Spring Boot 中实现 FreeMarker 模板

《如何在SpringBoot中实现FreeMarker模板》FreeMarker是一种功能强大、轻量级的模板引擎,用于在Java应用中生成动态文本输出(如HTML、XML、邮件内容等),本文... 目录什么是 FreeMarker 模板?在 Spring Boot 中实现 FreeMarker 模板1. 环

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义