实现 ChatPDF RAG：密集向量检索（R）+上下文学习（AG）

2024-06-05 06:12

文章标签 实现学习检索向量上下文密集 rag chatpdf ag

本文主要是介绍实现 ChatPDF RAG：密集向量检索（R）+上下文学习（AG），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

实现 ChatPDF & RAG：密集向量检索（R）+上下文学习（AG）

RAG 是啥？
怎么优化 RAG？

RAG 是啥？

RAG 是检索增强生成的缩写，是一种结合了信息检索技术与语言生成模型的人工智能技术。

这种技术主要用于增强 LLM 的能力，使其能够生成更准确且符合上下文的答案，同时减少模型幻觉。

RAG通过将检索模型和生成模型结合起来，利用专有数据源的信息（比如多文档）来辅助文本生成。

实现 RAG 步骤有很多步，涉及的知识点也很多，直接上开源项目，不用深入理解里面每个知识点，能用就行。

开源项目：https://github.com/chatchat-space/Langchain-Chatchat

从本地文档加载到生成语言模型回答的整个流程。

文本分块：
- 加载文件：这一步骤涉及从本地存储读取文件。
- 读取文件：将读取的文件内容转换为文本格式。
- 文本分割：按照一定的规则（例如按段落、句子或词语）将文本分割成小块，便于处理。
向量化存储：
- 文本向量化：使用NLP技术（如TF-IDF、word2vec、BERT）将文本转换为数值向量。
- 存储到向量数据库：将文本的向量存储在向量数据库中，如使用FAISS进行高效存储和检索。
问句向量化：
- 这一步将用户的查询或问题转换为向量，使用的方法应与文本向量化相同，确保在相同的向量空间中比较。
在文本向量中匹配相似向量：
- 通过计算余弦相似度或欧式距离等，找出与查询向量最相似的顶部k个文本向量。
构建问题的上下文：
- 将匹配出的文本作为问题的上下文，与问题一起构成prompt，输入给语言模型。
生成回答：
- 将问题和其上下文提交给语言模型（如GPT系列），由模型生成相应的回答。

通用 RAG 就是如此，最终目的是提供精确和相关的信息回答。

怎么优化 RAG？

方案1：不同领域下，通用 RAG 方案效果也不好，一般需要按场景定制优化的。

比如医学领域，用户搜索感冒，但医学数据库里面是风热流感，关键词不匹配就造成检索错位，只能得到通用信息
分解子问题查询 + 多步查询

方案2：通用 RAG 在文本分块的时候，通常只是粗暴的把 pdf 划分为 1500 块，很多关联的上下文被迫分隔。

最好是按照规则分块，而不是固定一个块，比如按标题（一级标题、二级标题、三级标题…），这样整个子块的内容都完整
再链接每个子块和父文档，复现上下文的相关性
如果那个作者标题写法不好，可以使用语义分割（阿里语义分割模型SeqModel）

方案3：PDF 解析时错漏很多信息，比如老年糖尿病标准变成了糖尿病标准，这个很影响效果

不能使用 pdf 加载器自动拆分，而是要手动精细拆分，再加上多个选项排序，得到最精准的那个

方案4：词嵌入模型没有经过微调，比如我的数据都是医学的，使用的 embedding 模型没有经过医学微调，很多名词、概念把握不清，只能捕捉到一些通用的医学术语和语法结构

尝试更多embedding模型，获得更精确的检索结果。如：piccolo-large-zh 或 bge-large-zh-v1.5、text2vec、M3E、bge、text-embedding-3 等，或者自己微调词嵌入模型

方案5：如果涉及大量文档，使用 pgVector - 高性能向量数据库引擎，如果存在较多相似的内容，可以考虑分类存放数据，减少冲突的内容

方案6：改进传统 RAG 算法

比如动态检索和重排序
比如multihop多跳检索

方案7：基于文档中的表格问题，通用 RAG 这块效果不好。

优先转为HTML、xml 格式，也可以 OCR

这篇关于实现 ChatPDF RAG：密集向量检索（R）+上下文学习（AG）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1032276。 23002807@qq.com

相关文章

C++中unordered_set哈希集合的实现

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

阅读更多...

C++中悬垂引用(Dangling Reference) 的实现

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量，变量超出作用域后销毁2. 引用绑定到动态分配的对象，对象

阅读更多...

SpringBoot基于注解实现数据库字段回填的完整方案

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

阅读更多...

Java HashMap的底层实现原理深度解析

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述：HashMap的宏观结构二、核心数据结构解析1. 数组（桶数组）2. 链表节点（Node

阅读更多...

Java AOP面向切面编程的概念和实现方式

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点（如日志、事务）与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么？二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

阅读更多...

Python实现字典转字符串的五种方法

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法：2、使用str方法：3、使用循环和字符串拼接：4、使用字符

阅读更多...

Linux下利用select实现串口数据读取过程

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码（使用select实现）代码解释总结在 linux 系统里，我们可以借助 select、

阅读更多...

Linux挂载linux/Windows共享目录实现方式

Linux挂载linux/Windows共享目录实现方式

《Linux挂载linux/Windows共享目录实现方式》：本文主要介绍Linux挂载linux/Windows共享目录实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录文件共享协议linux环境作为服务端（NFS）在服务器端安装 NFS创建要共享的目录修改 NFS 配

阅读更多...

通过React实现页面的无限滚动效果

通过React实现页面的无限滚动效果

《通过React实现页面的无限滚动效果》今天我们来聊聊无限滚动这个现代Web开发中不可或缺的技术,无论你是刷微博、逛知乎还是看脚本,无限滚动都已经渗透到我们日常的浏览体验中,那么,如何优雅地实现它呢？... 目录1. 早期的解决方案2. 交叉观察者：IntersectionObserver2.1 Inter

阅读更多...

Spring Gateway动态路由实现方案

Spring Gateway动态路由实现方案

《SpringGateway动态路由实现方案》本文主要介绍了SpringGateway动态路由实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录前沿何为路由RouteDefinitionRouteLocator工作流程动态路由实现尾巴前沿S

阅读更多...