基于match_phrase搜索的分词优化

2023-11-05 12:20

本文主要是介绍基于match_phrase搜索的分词优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ES 的match_phrase 搜索需要完整匹配输入的内容,比如我们搜索 ‘中国人民’ ,要保证的是doc中必须有 ‘中国人民’ 的内容出现。再比如我们搜索 ‘国人民’ 时,结果集中的 doc 中就要有 ‘国人民’ 的内容。一般在使用match 或 term 搜索的时候会引入词库,比如 ik 、 jieba 都利用词库来分词,之后按照分词粒度搜索。

然而match_phrase 的搜索背景下,搜索的内容有可能不是一段被完整分词的内容比如上面的例子 ‘国人民’。所以无法利用分词召回内容。取而代之的是使用 standard 或 ngram-1 先对 doc 进行最细粒度分词,搜索的时候也是按照最细粒度的单字进行匹配搜索。

下面以入库文档内容:'应付项目的增加' 为例

执行查询:

由于搜索text中的四个token 以及它们之间的相对位置和document中一样,所以能够搜索到入库的document。

这样做的原因是在短语搜索时,由于无法预判用于执行搜索的query文本,所以为了支持短语搜索,现有的技术将会在索引入库文档时,将文档中的每一个字当成一个独立的term,之后再存储到倒排索引中。而在搜索的时候,使用相同的逻辑将query文本的每一个字当成一个独立的term,然后从库中找同时包含所有query term的文档,接着在初步筛出来的文档中找出满足在文档中出现的顺序和query中的一致的文档作为最后结果。

当我们输入的搜索内容较多的时候,需要处理的单字也是成线性增长,性能也会有显著的下降;对此提出使用新的分词策略,修正了ik 、jieba等主流的分词器的分词缺点;

以下是新分词器的分词原理:主要特征是在index时将文本进行穷举式分词,也就是首先对于单个字的处理成一个term,之后处理多字词,并且这些多字词使用的position为第一个字(或最后一个字,通过参数控制)对应的term的position,然后将这些分词的结果全部放到倒排索引中,供后续query查找。在search时将搜索内容按照同样的position处理逻辑处理为一段无重复的分词,使用search分词器分词好的term进行搜索。

继续使用上面的例子,但是分词使用优化后的index分词器:

执行查询,这时使用search分词器:

连接关系:index 分词器 和 search 分词器是ES内的两个分词组件,没有直接的连接关系,通过框架内的流程顺序建立关系。逻辑上的关联关系无论其分词粒度不同,但是得到的分词term的position都是一样的。以上面为例:search text 分词结果(目的:0,增加:2) 能够匹配到index (目的:3,增加:5)。这也是search 分词器解析的短语搜索时能够匹配index 分词器分解的文档的原因。

github: GitHub - muhao1020/elasticsearch-analysis-maxword at master

这篇关于基于match_phrase搜索的分词优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/349815

相关文章

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

SpringBoot中HTTP连接池的配置与优化

《SpringBoot中HTTP连接池的配置与优化》这篇文章主要为大家详细介绍了SpringBoot中HTTP连接池的配置与优化的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、HTTP连接池的核心价值二、Spring Boot集成方案方案1:Apache HttpCl

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据

MySQL中like模糊查询的优化方案

《MySQL中like模糊查询的优化方案》在MySQL中,like模糊查询是一种常用的查询方式,但在某些情况下可能会导致性能问题,本文将介绍八种优化MySQL中like模糊查询的方法,需要的朋友可以参... 目录1. 避免以通配符开头的查询2. 使用全文索引(Full-text Index)3. 使用前缀索

C#实现高性能Excel百万数据导出优化实战指南

《C#实现高性能Excel百万数据导出优化实战指南》在日常工作中,Excel数据导出是一个常见的需求,然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈,下面我们看看C#如何结合EPPl... 目录一、技术方案核心对比二、各方案选型建议三、性能对比数据四、核心代码实现1. MiniExcel

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

SpringBoot首笔交易慢问题排查与优化方案

《SpringBoot首笔交易慢问题排查与优化方案》在我们的微服务项目中,遇到这样的问题:应用启动后,第一笔交易响应耗时高达4、5秒,而后续请求均能在毫秒级完成,这不仅触发监控告警,也极大影响了用户体... 目录问题背景排查步骤1. 日志分析2. 性能工具定位优化方案:提前预热各种资源1. Flowable

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N