LlamaIndex 实现 RAG(三)- 向量数据

2024-08-26 01:52

本文主要是介绍LlamaIndex 实现 RAG(三)- 向量数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

RAG 中使用向量存储知识和文档数据,召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作,不同 Embedding Model 参数不同,结果维度也不同,消耗的算力也不同。所以通常的做法都会在索引阶段(Embedding)把向量保存到向量数据库中,在召回阶段,向量数据库会根据选择的算法计算向量相似度,最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法,包括以下几部分

  1. 什么是 Embedding Model?
  2. 向量数据库的使用,包括 Chroma 和 PGVector
  3. 向量文档的管理,文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档,嵌入模型将文本作为输入,并返回一个向量,向量用于捕捉文本的语义。这些嵌入模型经过训练,能够以向量方式表示文本,并帮助实现语音搜索。从高层次来看,如果用户提出一个关于狗的问题,那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时,有许多方法可以使用(点积、余弦相似度等)。默认情况下,LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种,欧式距离(L2)、夹角余弦(Cosine)、内积(IP),向量数据库创建集合时,可以指定相似度算法,

欧式距离:点与点(矩阵与矩阵)之间的直线距离,越小相似度越高。
在这里插入图片描述

夹角余弦:向量之间的夹角,1 重合,-1 完全相反,0 为向量垂直,1 相似度最高。

在这里插入图片描述

向量内积:向量内积,越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑,参数、维度,可以在 HuggingFace 上查看 Embedding排名,选择语言,这里我们选择中文模型,可以看到 Qwen 系列排名都很靠前。在本文的案例中,使用的嵌入模型是 nomic-embed-text,维度 768,效果没有 Qwen 的好,模型相对较小,运行速度比较快,在 RAG 评估阶段,可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据,下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库,提供的功能包括向量的存储以及搜索,文档存储,全文本搜索,元数据过滤,多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库,包括两个方法,对文档做索引和查询索引,要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():chroma_client = chromadb.PersistentClient(path="./chroma_db")chroma_collection = chroma_client.get_or_create_collection("quickstart", embedding_function= embedding_functions.OllamaEmbeddingFunction(model_name="nomic-embed-text",url="http://10.91.3.116:11434"),metadata={"hnsw:space": "cosine"})vector_store = ChromaVectorStore(chroma_collection=chroma_collection)return vector_storedef index_doc_chroma():storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_indexdef get_doc_index_chroma():'''解析 PDF 并保存到 Chroma'''# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)return vector_index
PGVector

PGVector 是 Postgres 数据库 Vector 扩展,本文使用的是 PGVector.rs,是 PGVector 的 Rust 版本,性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker,Docker 镜像最近都不好用了,找到了一个可以用的镜像地址,需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():vector_store = PGVectoRsStore(client=client)return vector_storedef index_doc_pg():storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新,例如文档内容的变更,文档管理主要是要处理更新和删除,文档的更新可能会更新文档的多个地方,很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新,我们就是使用删除再插入的方式。如果文档变更了,我们先删除之前的,在插入更新的,问题就变为我们只要能够找到之前文档进行删除即可,在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法,调用 delete 方式需要出入一个 doc_id,下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的,这个 Id 是在创建 Document 时生成的,下图来自 SimpleDocumentStore,红框内就是 DocId。
在这里插入图片描述
所以,有了这些数据,自己就可以很容易的实现一个文档管理系统。

  1. 首先保存文档创建时的数据,尽量不用SimpleDocumentStore,使用关系数据库保存,易于查询,文件保存在对象存储上。
  2. 删除时,根据文件路径找到对应的 Id,这里要保证路径的唯一性。
  3. 对新的文档进行索引,并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用,向量数据库产品很多,至少有几十个。其实向量数据没有那么复杂,简单来说,就是向量的存储加查询,查询是通过上面所说的相似度算法,最后根据得分排序。由于计算量比较大,现在很多向量数据库厂商使用了云资源,其实向量最好能用能用现有的数据库,这样就不用新引入组件,比如手 PGVec、Mongo 等等。

最后,在项目中,还是要根据具体情况进行选型,要看你的项目的现有存储架构,对于性能要求高的可以考虑使用 Redis,Redis 是支持向量查询的,而且性能也不错。

这篇关于LlamaIndex 实现 RAG(三)- 向量数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107215

相关文章

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

Java实现删除文件中的指定内容

《Java实现删除文件中的指定内容》在日常开发中,经常需要对文本文件进行批量处理,其中,删除文件中指定内容是最常见的需求之一,下面我们就来看看如何使用java实现删除文件中的指定内容吧... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细介绍3.1 Ja

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取