LlamaIndex 实现 RAG（三）- 向量数据

本文主要是介绍LlamaIndex 实现 RAG（三）- 向量数据，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

RAG 中使用向量存储知识和文档数据，召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作，不同 Embedding Model 参数不同，结果维度也不同，消耗的算力也不同。所以通常的做法都会在索引阶段（Embedding）把向量保存到向量数据库中，在召回阶段，向量数据库会根据选择的算法计算向量相似度，最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法，包括以下几部分

什么是 Embedding Model？
向量数据库的使用，包括 Chroma 和 PGVector
向量文档的管理，文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档，嵌入模型将文本作为输入，并返回一个向量，向量用于捕捉文本的语义。这些嵌入模型经过训练，能够以向量方式表示文本，并帮助实现语音搜索。从高层次来看，如果用户提出一个关于狗的问题，那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时，有许多方法可以使用（点积、余弦相似度等）。默认情况下，LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种，欧式距离（L2)、夹角余弦（Cosine）、内积（IP），向量数据库创建集合时，可以指定相似度算法，

欧式距离：点与点（矩阵与矩阵）之间的直线距离，越小相似度越高。
在这里插入图片描述

夹角余弦：向量之间的夹角，1 重合，-1 完全相反，0 为向量垂直，1 相似度最高。

在这里插入图片描述

向量内积：向量内积，越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑，参数、维度，可以在 HuggingFace 上查看 Embedding排名，选择语言，这里我们选择中文模型，可以看到 Qwen 系列排名都很靠前。在本文的案例中，使用的嵌入模型是 nomic-embed-text，维度 768，效果没有 Qwen 的好，模型相对较小，运行速度比较快，在 RAG 评估阶段，可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据，下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库，提供的功能包括向量的存储以及搜索，文档存储，全文本搜索，元数据过滤，多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库，包括两个方法，对文档做索引和查询索引，要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():chroma_client = chromadb.PersistentClient(path="./chroma_db")chroma_collection = chroma_client.get_or_create_collection("quickstart", embedding_function= embedding_functions.OllamaEmbeddingFunction(model_name="nomic-embed-text",url="http://10.91.3.116:11434"),metadata={"hnsw:space": "cosine"})vector_store = ChromaVectorStore(chroma_collection=chroma_collection)return vector_storedef index_doc_chroma():storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex，并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_indexdef get_doc_index_chroma():'''解析 PDF 并保存到 Chroma'''# 从文档中创建 VectorStoreIndex，并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)return vector_index

PGVector

PGVector 是 Postgres 数据库 Vector 扩展，本文使用的是 PGVector.rs，是 PGVector 的 Rust 版本，性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker，Docker 镜像最近都不好用了，找到了一个可以用的镜像地址，需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():vector_store = PGVectoRsStore(client=client)return vector_storedef index_doc_pg():storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())# 读取 "./data" 目录中的数据并加载为文档对象documents = SimpleDirectoryReader("./data").load_data()# 从文档中创建 VectorStoreIndex，并使用 OllamaEmbedding 作为嵌入模型vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, storage_context=storage_context,transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新，例如文档内容的变更，文档管理主要是要处理更新和删除，文档的更新可能会更新文档的多个地方，很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新，我们就是使用删除再插入的方式。如果文档变更了，我们先删除之前的，在插入更新的，问题就变为我们只要能够找到之前文档进行删除即可，在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法，调用 delete 方式需要出入一个 doc_id，下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的，这个 Id 是在创建 Document 时生成的，下图来自 SimpleDocumentStore，红框内就是 DocId。

所以，有了这些数据，自己就可以很容易的实现一个文档管理系统。

首先保存文档创建时的数据，尽量不用SimpleDocumentStore，使用关系数据库保存，易于查询，文件保存在对象存储上。
删除时，根据文件路径找到对应的 Id，这里要保证路径的唯一性。
对新的文档进行索引，并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用，向量数据库产品很多，至少有几十个。其实向量数据没有那么复杂，简单来说，就是向量的存储加查询，查询是通过上面所说的相似度算法，最后根据得分排序。由于计算量比较大，现在很多向量数据库厂商使用了云资源，其实向量最好能用能用现有的数据库，这样就不用新引入组件，比如手 PGVec、Mongo 等等。

最后，在项目中，还是要根据具体情况进行选型，要看你的项目的现有存储架构，对于性能要求高的可以考虑使用 Redis，Redis 是支持向量查询的，而且性能也不错。

这篇关于LlamaIndex 实现 RAG（三）- 向量数据的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！