【IR 论文】DPR — 最早提出使用嵌入向量来检索文档的模型

2024-04-28 09:04

本文主要是介绍【IR 论文】DPR — 最早提出使用嵌入向量来检索文档的模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文:Dense Passage Retrieval for Open-Domain Question Answering
⭐⭐⭐⭐⭐
EMNLP 2020, Facebook Research
Code: github.com/facebookresearch/DPR

文章目录

    • 一、论文速读
    • 二、DPR 的训练
      • 2.1 正样本和负样本的选取
      • 2.2 In-batch negatives 技巧
    • 三、实验
      • 3.1 数据集的选用
      • 3.2 使用的模型
      • 3.3 Main Result
      • 3.4 模型训练的消融实验
      • 3.5 DPR 对比 BM25
    • 四、总结

一、论文速读

本篇文章提出的 DPR 模型是最早提出使用嵌入向量来实现文档检索的模型,也是目前 RAG 中 Retriever 的经典实现方案

在文档检索上,有两大流派:

  • Sparse Retrieval:使用 TF-IDF 或者 BM25 来实现检索
  • Dense Retrieval:向量检索

本文的 DPR 就属于 dense retrieval。

问题形式:我们有一堆文档 D = { d 1 , d 2 , … , d D } D = \{ d_1, d_2, \dots, d_D \} D={d1,d2,,dD},将这里面的每个文档切分为多个等长的 passages,passage 就是检索结果的基本单元。这些切分后的 passages 构成了我们的 corpus C = { p 1 , p 2 , … , p M } C = \{ p_1, p_2, \dots, p_M \} C={p1,p2,,pM}。而我们的任务是,给定一个 question q q q,我们需要返回与其相关的 passage 集合 C F ∈ C C_F \in C CFC

DPR 是一个 dual-encoder 架构,也就是包含两个 encoder:

  • passage encoder E P ( ⋅ ) E_P(\cdot) EP():是一个 BERT,将任意的 passage 映射为 d d d 维的 embedding 向量
  • question encoder E Q ( ⋅ ) E_Q(\cdot) EQ():也是一个 BERT,将一个 question 映射为 d d d 维的 embedding 向量

首先,DPR 会使用 encoder E P E_P EP 将 corpus 中的所有 passage 映射为 embedding 向量,并存入 FAISS 中离线构建向量索引,之后在运行时,对于到来的一个 user question,先使用 encoder E Q E_Q EQ 将其映射为 embedding 向量,然后通过比较 question embedding 和所有的 passage embedding 的相似性,选出 top-k 个 passages 作为检索结果

这里计算两个 embedding 相似性使用的是向量点积:

相似性函数

二、DPR 的训练

训练目标:找到这样一个向量空间,在这里面相关的 question 和 passage 比不相关的具有更高的相似度。

训练样本的形式:每一个 training data 的 instance 包含一个 question q i q_i qi、一个正样本 positive passage p i + p_i^+ pi+ 以及 n 个负样本 negative passages p i , j − p_{i,j}^- pi,j

损失函数:最小化正样本的负对数似然:

损失函数

2.1 正样本和负样本的选取

positive passage 比较好选,这往往是 QA 数据集已经给定了,或者可以从 answer 中找到。

而 negative passages 就比较难选了,负样本的使用是为了提高模型识别不相关文档的能力,这就需要让负样本多样化。在这篇论文中,考虑了以下三种类型的负样本类型:

  1. Random Negatives:从整个文档集合中随机选择的文档作为负样本。
  2. BM25 Negatives:使用BM25检索系统根据问题检索到的,但不包含答案的文档作为负样本。
  3. Gold Negatives:来自训练集中,与当前问题不匹配的正样本(即其他问题的正样本)作为负样本。

Gold Negatives 的 Gold 指的是这个样本是高质量的负样本,是特意选出来与当前问题不相关的样本。

2.2 In-batch negatives 技巧

这是一个在语义理解(向量索引)技术中的常见的训练技巧。

以如下 Batch size=4 的训练数据为例:

我手机丢了,我想换个手机 我想买个新手机,求推荐
求秋色之空漫画全集 求秋色之空全集漫画
学日语软件手机上的 手机学日语的软件
侠盗飞车罪恶都市怎样改车 侠盗飞车罪恶都市怎么改车

In-batch Negatives 策略的训练数据为语义相似的 Pair 对,策略核心是在 1 个 Batch 内同时基于 N 个负例进行梯度更新,将同一 Batch 内除自身之外其它所有 Source Text 的相似文本 Target Text 作为负例,例如: 上例中“我手机丢了,我想换个手机” 有 1 个正例(”我想买个新手机,求推荐“),3 个负例(1.求秋色之空全集漫画,2.手机学日语的软件,3.侠盗飞车罪恶都市怎么改车)。

具体来说,In-batch negatives策略的实施步骤如下:

  1. 选择正样本:首先从当前批次中选择出一个正样本,这个样本是模型需要正确识别的目标样本。
  2. 选择负样本:然后从同一批次中随机选择或根据特定规则选择一些负样本。这些负样本可以是与正样本相似但被错误标记的样本,也可以是完全不相关的样本。
  3. 模型训练:将正样本和负样本一起输入模型进行训练。模型需要学会区分正样本和负样本,从而提高推荐或检索的准确性。

In-batch negatives 策略的优势在于:

  • 提高模型的区分能力:通过在每个批次中引入负样本,模型被迫学习如何区分正样本和负样本,这有助于提高模型的泛化能力和区分度。
  • 利用现有数据:不需要额外的负样本库,可以直接利用当前批次中的数据作为负样本,这在数据有限的情况下尤其有用。
  • 减少计算资源消耗:与从全局样本集中采样负样本相比,In-batch negatives可以减少计算资源的消耗,因为它避免了在整个数据集上进行负采样的需要。

然而,In-batch negatives 策略也存在一些潜在的问题,例如:

  • 批次大小的限制:如果批次大小较小,可能无法提供足够多样化的负样本,这可能影响模型的学习效果。
  • 偏差问题:由于负样本是在同一个批次中选择的,可能会出现某些样本被频繁选为负样本的情况,这可能导致模型学习到的表示存在偏差。

In-batch negatives 已被证明是一个有效的训练 dual-encoder 模型的方法

In-batch negatives 的更多资料:https://github.com/paddlepaddle/PaddleNLP/tree/develop/applications/neural_search/recall/in_batch_negative

三、实验

文章做了两大类实验:Passage Retrieval 和 Question Answering,在这里我们主要关注 Passage Retrieval 上的实验。

3.1 数据集的选用

学习一下这里是如何构建数据集的

本工作通过预处理从 Wikipedia 中获取到 21,015,324 篇 passages,然后使用了多个 QA 数据集来构建本工作所用数据:

  • Natural Question(NQ)
  • TriviaQA
  • WebQuestion(WQ)
  • CuratedTREC(TREC)
  • SQuAD v1.1

具体关于数据集的详细信息,可以参考原论文。

之后,本论文工作从这些数据集中构建出本文模型所需要使用的数据,针对 QA 中的每一个 question,本文使用了 BM25 来检索出相关的 passages,并将最高排名的 passage 作为 positive passage。

3.2 使用的模型

主要使用了三个模型来进行实验:

  1. BM25:经典的 sparse retrieval 的模型
  2. DPR:本文的模型
  3. BM25 + DPR:先分别让 BM25 和 DPR 独立运行,然后将两者的输出进行聚合,使用某种线性组合或者重排序(reranking)策略来得到最终的检索列表。

3.3 Main Result

实验结果
可以看到,除了 SQuAD 数据集,DPR 模型都表现比 BM25 效果好。

作者还给出了 DPR 在 SQuAD 数据集上表现不如 BM25 的原因,是认为这个数据集是注释者在看到文章后写下问题。因此,段落和问题之间有很高的词汇重叠,这给 BM25 带来了明显的优势。其次,数据仅从500多篇维基百科文章中收集,因此训练示例的分布极有偏见。

3.4 模型训练的消融实验

分别针对以下部分做了消融实验,这里仅列出一些结论,具体可以参考原论文:

  1. Sample efficiency:作者发现,少量的训练样本就可以让 DPR 的表现超过 BM25,并且随着样本的增多,DPR 的表现也在变得更好。
  2. In-batch negative training:作者发现负样本的选择方式(前面介绍了三种)对模型表现影响不大
  3. Impact of gold passages:作者将 gold positive passage 作为正样本和将 BM25 选出来的最靠前的 passage 作为正样本继续了对比,发现前者表现更好。
  4. Similarity and loss:选择 L2 distance 作为相似性函数并相应的修改 loss func 后,并不会太影响模型的结果
  5. Cross-dataset generalization:将模型在 NQ 上训练后直接用于其他 QA Dataset 的实验,发现效果还不错,说明了 DPR 的检索能力具备通用性。

3.5 DPR 对比 BM25

这篇论文虽然实验说明 DPR 在数据集上表现比 BM25 要好,但在实际中,两者有着不同的适用场景

  • BM25 这样的术语匹配方法对高度选择性的关键词和短语很敏感
  • DPR 更好地捕捉词汇变化或语义关系

两者的效率也有明显的区别:

  • 在运行时,有 FAISS 的帮助下,DPR 的吞吐量比 BM25 明显要高
  • 但在预先构建索引阶段,DPR 向量化所有 passages 需要花费大量的时间(论文使用了 8.5h
  • ),而 BM25 的工业实现 Lucene 可以很快完成(论文使用了 30min)

这里的具体数据可以参考原论文。

四、总结

DPR 是密集向量检索的经典实现方式之一,目前也还有大量基于它的思路来实现的,对这个模型进行认真学习很有必要。

这篇关于【IR 论文】DPR — 最早提出使用嵌入向量来检索文档的模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/942836

相关文章

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

C# $字符串插值的使用

《C#$字符串插值的使用》本文介绍了C#中的字符串插值功能,详细介绍了使用$符号的实现方式,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录$ 字符使用方式创建内插字符串包含不同的数据类型控制内插表达式的格式控制内插表达式的对齐方式内插表达式中使用转义序列内插表达式中使用