Elasticsearch 如何处理 Aggs 顺序中的大写字母和小写字母?

2023-12-06 17:01

本文主要是介绍Elasticsearch 如何处理 Aggs 顺序中的大写字母和小写字母?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Elasticsearch 排序允许你根据特定条件对搜索结果进行排序。 然而,在排序时处理区分大小写时,Elasticsearch 将大写和小写字母视为不同的字符,分别对它们进行排序。 这是因为 ASCII 表顺序是从大写 A 到小写 z。

默认情况下,Elasticsearch 按以下顺序对字符串进行排序:首先是数字,然后是大写字母,最后是小写字母。 例如,如果您有术语 “Apple”、“apple”、“banana”、“Carrot” 和 “1apple”,它们将按升序排序为“1apple”、“Apple”、“Carrot”、“ apple”、“banana”。

POST /test_casing/_bulk
{ "index" : {} }
{ "my_field" : "Apple" }
{ "index" : {} }
{ "my_field" : "apple" }
{ "index" : {} }
{ "my_field" : "banana" }
{ "index" : {} }
{ "my_field" : "Carrot" }
{ "index" : {} }
{ "my_field" : "1apple" }

这种默认行为可能并不总是令人满意。 例如,如果你对值 “Apple”、“banana” 和 “Carrot” 建立了索引,并且使用升序排列,那么你将得到 “Apple”、“Carrot” 和“banana”。 但是,你可能想要 “Apple”、“banana”、“Carrot”。

为此,你可以使用 Elasticsearch 中称为规范化器(normalizer)的功能。 规范化器与关键字字段类型一起使用,允许你以类似于分析文本的方式预处理关键字字段的输入。

然而,与分析器不同,规范化器不会将输入分解为标记。 这使得它适合需要对整个输入进行索引或排序的关键字字段类型。

PUT /test_casing2
{"settings": {"analysis": {"normalizer": {"my_normalizer": {"type": "custom","filter": ["lowercase"]}}}},"mappings": {"properties": {"my_field": {"type": "keyword","normalizer": "my_normalizer"}}}
}
POST /test_casing2/_bulk
{"index":{}}
{"my_field":"Apple"}
{"index":{}}
{"my_field":"apple"}
{"index":{}}
{"my_field":"banana"}
{"index":{}}
{"my_field":"bananA"}
{"index":{}}
{"my_field":"Carrot"}

需要注意的是,使用标准化器会改变索引中的值。 如果你想保留原始值,例如带有大写 “A” 的 “Apple”,你可以使用子字段(sub-fields)。 这允许你保留原始字段值和标准化字段值。 在聚合结果中,Elasticsearch 将仅显示你在聚合中使用的字段

不幸的是,Elasticsearch 不支持直接在术语聚合中进行不区分大小写的排序。 即使使用脚本聚合和标准化器,也不可能以不区分大小写的方式排序并区分大小写地显示结果。 这是用户在使用 Elasticsearch 时应该注意的限制。

如何向现有索引添加标准化器?

让我们看一下在 Elasticsearch 中向现有索引添加规范器的过程的实际示例。 此过程涉及几个步骤:关闭索引、更新设置、重新打开索引、更新映射、更新数据索引,最后运行查询。

首先,你需要使用以下命令关闭索引:

POST test_casing/_close

接下来,你更新索引的设置以添加标准化器。 在本例中,我们添加一个应用小写过滤器的自定义规范化器:

PUT test_casing/_settings
{"analysis": {"normalizer": {"my_normalizer": {"type": "custom","filter": ["lowercase"]}}}
}

更新设置后,你可以重新打开索引:

POST test_casing/_open

现在,你需要更新索引的映射以使用规范器。 在这里,我们向 “my_field” 添加一个使用标准化器的子字段:

PUT test_casing/_mapping
{"properties": {"my_field": {"type": "text","fields": {"normalized": {"type": "keyword","normalizer": "my_normalizer"}}}}
}

请注意,my_field.normalized 是字段名称。

接下来,你可以通过运行 update_by_query 来更新数据索引,这将在 my_field.normalized 字段内添加数据:

POST test_casing/_update_by_query

最后,你可以对索引运行搜索查询。 在本例中,我们在新的标准化字段上运行聚合:

GET /test_casing/_search
{"size": 0,"aggs": {"my_terms": {"terms": {"field": "my_field.normalized"}}}
}

此过程演示了如何将规范器添加到 Elasticsearch 中的现有索引,从而使你能够更灵活地处理区分大小写的问题。

这篇关于Elasticsearch 如何处理 Aggs 顺序中的大写字母和小写字母?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/462581

相关文章

Python调用LibreOffice处理自动化文档的完整指南

《Python调用LibreOffice处理自动化文档的完整指南》在数字化转型的浪潮中,文档处理自动化已成为提升效率的关键,LibreOffice作为开源办公软件的佼佼者,其命令行功能结合Python... 目录引言一、环境搭建:三步构建自动化基石1. 安装LibreOffice与python2. 验证安装

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

Spring Bean初始化及@PostConstruc执行顺序示例详解

《SpringBean初始化及@PostConstruc执行顺序示例详解》本文给大家介绍SpringBean初始化及@PostConstruc执行顺序,本文通过实例代码给大家介绍的非常详细,对大家的... 目录1. Bean初始化执行顺序2. 成员变量初始化顺序2.1 普通Java类(非Spring环境)(

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

Java堆转储文件之1.6G大文件处理完整指南

《Java堆转储文件之1.6G大文件处理完整指南》堆转储文件是优化、分析内存消耗的重要工具,:本文主要介绍Java堆转储文件之1.6G大文件处理的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言文件为什么这么大?如何处理这个文件?分析文件内容(推荐)删除文件(如果不需要)查看错误来源如何避

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

Java docx4j高效处理Word文档的实战指南

《Javadocx4j高效处理Word文档的实战指南》对于需要在Java应用程序中生成、修改或处理Word文档的开发者来说,docx4j是一个强大而专业的选择,下面我们就来看看docx4j的具体使用... 目录引言一、环境准备与基础配置1.1 Maven依赖配置1.2 初始化测试类二、增强版文档操作示例2.

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口