NLP Bi-Encoder和Re-ranker

2023-10-22 04:15

文章标签 re nlp bi encoder ranker

本文主要是介绍NLP Bi-Encoder和Re-ranker，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Retrieve & Re-Rank
https://www.sbert.net/examples/applications/retrieve_rerank/README.html
Bi-Encoder vs. Cross-Encoder
https://www.sbert.net/examples/applications/cross-encoder/README.html

Bi-Encoder会用BERT对输入文本编码，再根据cosine相似度分数筛选文本。Cross-Encoder会直接计算两个句子的相关性分数。
在这里插入图片描述

如何将BI和Cross Encoder配合使用？可以先用BI-Encoder选出top 100个候选项，再用Cross-Encoder挑选最佳选项。

Combining Bi- and Cross-Encoders
Cross-Encoder achieve higher performance than Bi-Encoders, however, they do not scale well for large datasets.
Here, it can make sense to combine Cross- and Bi-Encoders, for example in Information Retrieval / Semantic Search scenarios:
First, you use an efficient Bi-Encoder to retrieve e.g. the top-100 most similar sentences for a query.
Then, you use a Cross-Encoder to re-rank these 100 hits by computing the score for every (query, hit) combination.

这篇关于NLP Bi-Encoder和Re-ranker的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/259000。 23002807@qq.com

相关文章

Python中re模块结合正则表达式的实际应用案例

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

阅读更多...

Python Transformers库(NLP处理库)案例代码讲解

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

阅读更多...

Python正则表达式语法及re模块中的常用函数详解

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结概念、作用和步骤概念：本身也是一个字符串，其中

阅读更多...

Python实现NLP的完整流程介绍

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词（Tokenizatio

阅读更多...

013.Python爬虫系列_re正则解析

013.Python爬虫系列_re正则解析

我的个人主页：👉👉 失心疯的个人主页 👈👈 入门教程推荐：👉👉 Python零基础入门教程合集 👈👈 虚拟环境搭建：👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系列教程：👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程：👉👉 Oracle数据库文章合集 👈👈 优

阅读更多...

【python 走进NLP】两两求相似度，得到一条文本和其他文本最大的相似度

【python 走进NLP】两两求相似度，得到一条文本和其他文本最大的相似度

应用场景：一个数据框里面文本，两两求相似度，得到一条文本和其他文本最大的相似度。 content source_id0 丰华股份军阀割据发生的故事大概多少w 11 丰华股份军阀割据发生的故事大概多少 22 丰华股份军阀割据发生的故事大概多少 33 丰华股份军阀割据发生的故事大概多少

阅读更多...

【Python 走进NLP】NLP词频统计和处理停用词，可视化

【Python 走进NLP】NLP词频统计和处理停用词，可视化

# coding=utf-8import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')from lxml import etreeimport timetime1=time.time()import bs4import nltkfrom bs4 import BeautifulSoupfrom

阅读更多...

【java 走进NLP】simhash 算法计算两篇文章相似度

【java 走进NLP】simhash 算法计算两篇文章相似度

python 计算两篇文章的相似度算法simhash见： https://blog.csdn.net/u013421629/article/details/85052915 对长文本是比较合适的（超过500字以上）下面贴上java 版本实现： pom.xml 加入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</a

阅读更多...

【python 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

互联网网页存在大量的重复内容网页，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪，还是社交媒体等文本去重和聚类，都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型，计算分词后的文本的特征向量的相似性，这种方法存在效率的严重弊端，无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点，对每个文本构造一个指纹，来作为该文本的标识，从形式上来

阅读更多...

【python 走进NLP】文本相似度各种距离计算

【python 走进NLP】文本相似度各种距离计算

计算文本相似度有什么用？ 1、反垃圾文本的捞取 “诚聘淘宝兼职”、“诚聘打字员”…这样的小广告满天飞，作为网站或者APP的运营者，不可能手动将所有的广告文本放入屏蔽名单里，挑几个典型广告文本，与它满足一定相似度就进行屏蔽。 2、推荐系统在微博和各大BBS上，每一篇文章/帖子的下面都有一个推荐阅读，那就是根据一定算法计算出来的相似文章。 3、冗余过滤我们每天接触过量的信息，信息之间存在大量

阅读更多...