在 Elasticsearch 中更新同义词:同义词 synonyms API 简介

2024-01-23 05:10

本文主要是介绍在 Elasticsearch 中更新同义词:同义词 synonyms API 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Carlos Delgado

在上一篇文章中,我们讨论了同义词及其对于提供出色搜索体验的重要性。 使用同义词可以通过以下方式改善搜索结果:

  • 查找与搜索查询使用相似词的文档
  • 使特定领域的词汇更加用户友好,以便用户使用熟悉的单词找到结果
  • 纠正常见的拼写错误或拼写错误

搜索结果需要随着时间的推移而变化。 新商品开始销售,新趋势改变了用户搜索的内容,新术语成为搜索域的一部分。 我们的搜索体验也必须不断发展。

作为改进搜索体验的一部分,保持同义词更新非常重要。 Elasticsearch® 中引入了新的同义词 synonym API,以帮助管理同义词并无缝更新它们。

此 API 简化了您更新同义词的工作流程,并提供与你的流程和工具更好的集成。

请注意:Synonym API 适用于 Elasticsearch 8.10 版本之后。

以前的同义词更新过程

正如博客文章中详细解释的,Elasticsearch 中的同义词是使用 synonym 和 synonym graph  token filter 定义的。 然后,这些 token 过滤器将作为文本字段分析的一部分包含在内。

我们已经可以通过在 synonym token 过滤器中配置同义词文件来更新搜索分析器的同义词 - 例如:

PUT /synonym_test
{"settings": {"index": {"analysis": {"analyzer": {"synonym_analyzer": {"tokenizer": "whitespace","filter": ["my_synonyms"]}},"filter": {"my_synonyms": {"type": "synonym","synonyms_path": "my_synonyms.txt","updateable": true}}}}}
}

更多关于同义词的使用,请阅读:

  • Elasticsearch:如何在 Elasticsearch 中正确使用同义词功能

  • Elasticsearch:使用同义词 synonyms 来提高搜索效率

synonym_path 定义存储同义词文件的文件路径(相对于 Elasticsearch 配置文件)。 同义词文件包含同义词规则,必须分发到集群中的所有 Elasticsearch 节点。

要更新同义词,我们需要更新每个集群节点上的同义词文件,然后使用 reload search analyzers API 为每个使用同义词文件作为其同义词标记过滤器的索引重新加载搜索分析器。

为什么要添加同义词 API?

当前更新同义词的方式涉及以下几个步骤:

  • 我们需要将同义词文件上传到 Elasticsearch 集群中的每个节点。 Elastic Cloud 用户可以上传自定义捆绑包来执行此操作。
  • 我们的同义词 token 过滤器必须配置正确的路径(该路径可以是绝对路径,也可以是相对于 Elasticsearch 配置目录的路径)。
  • 同义词文件必须在每个节点上更新并保持同步。
  • 需要为使用同义词文件的每个索引调用 Reload search analyzers API。

这是可行的,但它涉及基础设施工作,例如上传文件、保持文件最新和同步,以及了解每个同义词文件的使用位置。

使用 synonyms API

与之前基于文件的同义词更新方法相比,使用同义词 API 具有许多优点:

  • 提供基于 API 的同义词定义机制
  • 为分析过程提供自动重载机制
  • 允许细粒度同义词管理 - 你可以替换同义词集上的所有规则或单个同义词规则

定义同义词集

同义词集是要应用的一组同义词。 你可以根据需要添加任意数量的同义词集。

每个同义词集使用同义词规则定义同义词。 每个规则使用 Solr 格式定义一组同义词单词以及它们之间的显式等价项。

创建同义词集是使用创建或更新同义词集 API 完成的:

PUT _synonyms/my-synonyms-set
{"synonyms_set": [{"id": "pc","synonyms": "pc => personal computer"},{"id": "computer","synonyms": "computer,laptop"}]
}

此 API 请求创建一个带有标识符 my-synonyms-set 的新同义词集,它定义了两个同义词规则:

  • 一个带有标识符 “pc” 的同义词规则,将单词 “pc” 扩展为 “personal computer”,但反之则不然
  • 一条带有标识符 “computer” 的同义词规则,指定 “computer” 和 “laptop” 是等效的

配置同义词集

创建后,你的同义词集可以用作 synonym 或 synoynm graph token 滤器的一部分。

使用 synonyms_set 配置选项来指定在上一步中创建的同义词集标识符:

PUT /synonym_set_test
{"settings": {"index": {"analysis": {"analyzer": {"synonym_analyzer": {"tokenizer": "whitespace","filter": ["my_synonyms"]}},"filter": {"my_synonyms": {"type": "synonym","synonyms_set": "my-synonyms-set","updateable": true}}}}}
}

你的同义词已准备好可供使用! 分析器将检索配置的同义词集中定义的同义词,并将它们应用到您使用它的字段。

更新同义词集

你可以通过更新所有同义词规则来更新同义词集:

PUT _synonyms/my-synonyms-set
{"synonyms_set": [{"id": "pc","synonyms": "pc => personal computer"},{"id": "computer","synonyms": "computer, pc, laptop, desktop"}]
}

或者,你可以管理单独的同义词规则。 由于每个规则都有一个标识符,因此你可以创建、删除或更新单个同义词规则:

PUT _synonyms/my-synonyms-set/computer
{"synonyms": "computer, pc, laptop, desktop"
}

就是这样! 使用同义词集的索引将自动重新加载分析器。 你的搜索体验将可以访问更新后的同义词,无需执行进一步的步骤。

试试看!

管理你的搜索体验的同义词从未如此简单! 你现在可以使用新的 synonym API 来定义同义词并通过自动重新加载所需的分析器来更新同义词,而不是使用文件并更新每个文件和关联的索引分析器。

一探究竟! 立即创建 Elastic Cloud 集群并开始定义同义词。

我们很乐意听到您的反馈 - 加入我们的讨论论坛或社区 Slack 频道中的对话。

这篇关于在 Elasticsearch 中更新同义词:同义词 synonyms API 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/635329

相关文章

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

Java Stream 并行流简介、使用与注意事项小结

《JavaStream并行流简介、使用与注意事项小结》Java8并行流基于StreamAPI,利用多核CPU提升计算密集型任务效率,但需注意线程安全、顺序不确定及线程池管理,可通过自定义线程池与C... 目录1. 并行流简介​特点:​2. 并行流的简单使用​示例:并行流的基本使用​3. 配合自定义线程池​示

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

MySQL 数据库表操作完全指南:创建、读取、更新与删除实战

《MySQL数据库表操作完全指南:创建、读取、更新与删除实战》本文系统讲解MySQL表的增删查改(CURD)操作,涵盖创建、更新、查询、删除及插入查询结果,也是贯穿各类项目开发全流程的基础数据交互原... 目录mysql系列前言一、Create(创建)并插入数据1.1 单行数据 + 全列插入1.2 多行数据

Python库 Django 的简介、安装、用法入门教程

《Python库Django的简介、安装、用法入门教程》Django是Python最流行的Web框架之一,它帮助开发者快速、高效地构建功能强大的Web应用程序,接下来我们将从简介、安装到用法详解,... 目录一、Django 简介 二、Django 的安装教程 1. 创建虚拟环境2. 安装Django三、创

linux安装、更新、卸载anaconda实践

《linux安装、更新、卸载anaconda实践》Anaconda是基于conda的科学计算环境,集成1400+包及依赖,安装需下载脚本、接受协议、设置路径、配置环境变量,更新与卸载通过conda命令... 目录随意找一个目录下载安装脚本检查许可证协议,ENTER就可以安装完毕之后激活anaconda安装更

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

Python用Flask封装API及调用详解

《Python用Flask封装API及调用详解》本文介绍Flask的优势(轻量、灵活、易扩展),对比GET/POST表单/JSON请求方式,涵盖错误处理、开发建议及生产环境部署注意事项... 目录一、Flask的优势一、基础设置二、GET请求方式服务端代码客户端调用三、POST表单方式服务端代码客户端调用四

SpringBoot结合Knife4j进行API分组授权管理配置详解

《SpringBoot结合Knife4j进行API分组授权管理配置详解》在现代的微服务架构中,API文档和授权管理是不可或缺的一部分,本文将介绍如何在SpringBoot应用中集成Knife4j,并进... 目录环境准备配置 Swagger配置 Swagger OpenAPI自定义 Swagger UI 底