Elasticsearch教程(26) mapping参数doc_values fielddata enabled

2023-11-06 03:50

本文主要是介绍Elasticsearch教程(26) mapping参数doc_values fielddata enabled,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

mapping参数doc_values fielddata enabled index norms coerce

  • 1 前言
  • 2 正排索引
  • 3 倒排索引
  • 4 doc_values
  • 5 fielddata
  • 6 coerce
  • 7 enabled
  • 8 index
  • 9 norms

1 前言

Elasticsearch的mapping字段类型非常丰富, 字段类型还有很多参数可设置, 知晓这些参数, 可以优化提高ES存储空间和性能.
在学习mapping的参数配置前, 先大致了解下正排索引和倒排索引.

我水平有限, 可参考大佬的博客Doc Values and Fielddata

2 正排索引

说到正排索引, 我们就想到MySQL, 一般ID为主键, 根据ID可以直接查询到对应文档.

如果根据非主键查数据,在不考虑索引时, MySQL会全表扫描, 找出匹配的数据, 效率低.

正排索引, 他结构比较简单, 根据ID能快速查询到数据.

idnamesex
1vissy
2winter
3good

举例:
查找name包含"king"的数据
正排索引会遍历所以的3条数据, 找出匹配的结果是ID=1和3的文档

根据age排序
正排索引会遍历所以的3条数据, 然后根据age排序

3 倒排索引

倒排索引以词为关键字进行索引, 如下图:第一列是上面表格内容拆分后的词, 第二列是文档ID

  • 在真实ES内部,倒排索引第二列还维护词的词频, 位置, 偏移量信息
  • 从下表可分析,数据量一旦很大, 这个倒排索引表还是很复杂的, 内容也会很巨大
  • 它的好处是, 根据词来查询时, 能直接获取文档ID, 找到文档, 不用全表扫描, 效率很高
  • 倒排索引擅长检索, 不擅长做聚合和排序, 所以有了doc_values
  • doc_values是列式存储结构, 它擅长聚合和排序
文档ID
vissy1
winter2
good3
2
1, 3

4 doc_values

为了加快排序、聚合操作,在建立倒排索引的时候,额外增加一个列式存储映射,是一个空间换时间的做法。默认是开启的,对于确定不需要聚合或者排序的字段可以关闭。

  • 在ES保持文档,构建倒排索引的同时doc_values就被生成了, doc_values数据太大时, 它存储在电脑磁盘上.
  • doc_values是列式存储结构, 它擅长做聚合和排序
  • 对于非分词字段, doc_values默认值是true(开启的), 如果确定某字段不参与聚合和排序,可以把该字段的doc_values设为false
  • 例如SessionID, 它是keyword类型, 对它聚合或排序毫无意义, 需要把doc_values设为false, 节约磁盘空间
  • 分词字段不能用doc_values

实验: 创建index, session_id的doc_values为false

PUT pigg_test_docvalues
{"mappings":{"properties":{"status_code":{"type":"keyword"},"session_id":{"type":"keyword","doc_values":false}}}
}
# 插入下面2个文档
PUT pigg_test_docvalues/_doc/1
{"status_code": "200","session_id": "aaa"
}PUT pigg_test_docvalues/_doc/2
{"status_code": "500","session_id": "bbb"
}

测试对session_id进行检索

GET pigg_test_docvalues/_search
{"query": {"term": {"session_id": {"value": "aaa"}}}
}
返回有数据"hits" : [{"_index" : "pigg_test_docvalues","_type" : "_doc","_id" : "1","_score" : 0.6931471,"_source" : {"status_code" : "200","session_id" : "aaa"}}]

测试对session_id排序

GET pigg_test_docvalues/_search
{"sort": [{"session_id": {"order": "desc"}}]
}
返回报错
"caused_by" : {"type" : "illegal_argument_exception","reason" : "Can't load fielddata on [session_id] because fielddata is unsupported on fields of type [keyword]. Use doc values instead."
}

测试对session_id聚合

GET pigg_test_docvalues/_search
{"aggs": {"terms_by_sessionId": {"terms": {"field": "session_id"}}}
}
返回报错
"caused_by" : {"type" : "illegal_argument_exception","reason" : "Can't load fielddata on [session_id] because fielddata is unsupported on fields of type [keyword]. Use doc values instead."
}

5 fielddata

  • fielddata默认false, 用在text类型的字段上, fielddata存在内存里
  • doc_values是不支持text字符串字段的, doc_values存在磁盘上
  • 例如某个text类型字段, 它是分词的, 正常是不能对text字段进行聚合和排序的
  • 但是text字段的fielddata设为true后, 就可以对text字段进行聚合和排序
  • 与 doc values 不同,fielddata 构建和管理 100% 在内存中,常驻于JVM内存堆
  • fielddata是延迟加载的。如果你从来没有聚合一个分析字符串,就不会加载 fielddata 到内存中,是在查询时候构建的
  • 文档很多时, fielddata非常占内存, 所以不建议在分词的字段上进行聚合和排序

在这里插入图片描述
实验: 插入index

PUT pigg_test_fielddata
{"mappings": {"properties": {"field_one": {"type": "text"},"field_two": {"type": "text","fielddata": true}}}
}PUT pigg_test_fielddata/_doc/1
{"field_one": "我不能排序和聚合","field_two": "我能排序和聚合"
}
根据fielddata=false的字段排序,会报错
GET pigg_test_fielddata/_search
{"sort": [{"field_one": {"order": "desc"}}]
}返回的错误说的很清楚, 建议用keyword字段, 或者设置text字段fielddata=true(很耗内存)
"caused_by" : {"type" : "illegal_argument_exception","reason" : "
Text fields are not optimised for operations that require per-document field data like aggregations and sorting,so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [field_one] in order to load field data by uninverting the inverted index.Note that this can use significant memory."
}

根据fielddata=true的字段排序,会返回正确

GET pigg_test_fielddata/_search
{"sort": [{"field_two": {"order": "desc"}}]
}返回:
"hits" : [{"_index" : "pigg_test_fielddata","_type" : "_doc","_id" : "1","_score" : null,"_source" : {"field_one" : "我不能排序和聚合","field_two" : "我能排序和聚合"},"sort" : ["能"]}]

6 coerce

coerce: 是否开启自动数据类型转换功能, 默认是true(开启)
例如:

  • 字符串"10"自动转数字10
  • 浮点数10.0自动转整型10

实验: 创建一个index
field_one默认coerce为true
field_two设置coerce为false

PUT pigg_test_coerce
{"mappings": {"properties": {"field_one": {"type": "integer"},"field_two": {"type": "integer","coerce": false}}}
}
# 执行成功
PUT pigg_test_coerce/_doc/1
{"field_one": "10"
}
# 执行报错: failed to parse field [field_two] of type [integer] in document
PUT pigg_test_coerce/_doc/2
{"field_two": "10"
}

7 enabled

  • enabled默认值是true(开启)
  • enabled只用于mapping中的object字段类型。当设置为false时,其作用是使es不去解析该字段
  • 默认情况下,ES会给所有字段进行索引操作, 这样就可以根据该字段检索文档
  • 但是当不需要索引某个字段时(例如session信息), 只需要在文档里返回该字段, 可设置enabled=false
  • 设置enabled=false的字段可以存任意类型的值, 包括JSON对象

实验如下:

PUT pigg_test_enabled
{"mappings": {"properties": {"name": {"enabled": false}}}
}

插入多种格式的值

PUT pigg_test_enabled/_doc/1
{"name": "winter"
}PUT pigg_test_enabled/_doc/2
{"name": {"first_name": "wang","last_name": "dong"}
}GET pigg_test_enabled/_search返回发现: 不同的值都可以存入"hits" : [{"_index" : "pigg_test_enabled","_type" : "_doc","_id" : "1","_score" : 1.0,"_source" : {"name" : "winter"}},{"_index" : "pigg_test_enabled","_type" : "_doc","_id" : "2","_score" : 1.0,"_source" : {"name" : {"first_name" : "wang","last_name" : "dong"}}}]# 查看mapping
GET pigg_test_enabled/_mapping返回如下: name类型是object, 并不会解析name在其下面添加first_name和last_name子字段
{"pigg_test_enabled" : {"mappings" : {"properties" : {"name" : {"type" : "object","enabled" : false}}}}
}

在enable=false的字段上检索文档, 是查询不到数据的

GET pigg_test_enabled/_search
{"query": {"term": {"name": {"value": "winter"}}}
}返回没有数据

8 index

  • index默认是true
  • 当设置为false,表明该字段不能被被检索, 不构建倒排索引,如果查询会报错。但是可以被store。
  • 如果对字段进行term、terms 查询,聚合(aggregations)操作,脚本(script)操作以及用来排序(sort), 需要设为true。
  • 和上面enabled有区别, index不能用在object类型上, enabled只能用在object类型上
    实验: 创建一个索引, 其中words字段index=false
PUT pigg_test_index
{"mappings": {"properties": {"name": {"type": "keyword"},"words": {"type": "keyword","index": false}}}
}
#插入如下数据
PUT pigg_test_index/_doc/1
{"name": "亚瑟王","words": "死亡骑士, 不是死掉的骑士"
}PUT pigg_test_index/_doc/2
{"name": "扁鹊","words": "命长的是赢家"
}

查询文档, _source是有words的

 "hits" : [{"_index" : "pigg_test_index","_type" : "_doc","_id" : "1","_score" : 1.0,"_source" : {"name" : "亚瑟王","words" : "死亡骑士, 不是死掉的骑士"}},{"_index" : "pigg_test_index","_type" : "_doc","_id" : "2","_score" : 1.0,"_source" : {"name" : "扁鹊","words" : "命长的是赢家"}}]

在index=false的字段上检索文档

GET pigg_test_index/_search
{"query": {"term": {"words": {"value": "命长的是赢家"}}}
}

该查询会报错:

"caused_by" : {"type" : "illegal_argument_exception","reason" : "Cannot search on field [words] since it is not indexed."
}

最喜欢玩老亚瑟
在这里插入图片描述

9 norms

  • 不分词的字段,默认 false
  • Norms 存储各种用于在查询时计算查询条件的相关性得分的标准化因子。
  • 虽然norms 在计算相关性得分时非常有用, 但是同样需要消耗大量内存。
  • norms 的配置应该在字段和 索引的设置上保持一致
PUT my_index/_mapping/_doc
{"properties": {"title": {"type": "text","norms": false}}
}

这篇关于Elasticsearch教程(26) mapping参数doc_values fielddata enabled的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/winterking3/article/details/108790116
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/354311

相关文章

C#实现访问远程硬盘的图文教程

《C#实现访问远程硬盘的图文教程》在现实场景中,我们经常用到远程桌面功能,而在某些场景下,我们需要使用类似的远程硬盘功能,这样能非常方便地操作对方电脑磁盘的目录、以及传送文件,这次我们将给出一个完整的... 目录引言一. 远程硬盘功能展示二. 远程硬盘代码实现1. 底层业务通信实现2. UI 实现三. De

一文详解PostgreSQL复制参数

《一文详解PostgreSQL复制参数》PostgreSQL作为一款功能强大的开源关系型数据库,其复制功能对于构建高可用性系统至关重要,本文给大家详细介绍了PostgreSQL的复制参数,需要的朋友可... 目录一、复制参数基础概念二、核心复制参数深度解析1. max_wal_seChina编程nders:WAL

ubuntu20.0.4系统中安装Anaconda的超详细图文教程

《ubuntu20.0.4系统中安装Anaconda的超详细图文教程》:本文主要介绍了在Ubuntu系统中如何下载和安装Anaconda,提供了两种方法,详细内容请阅读本文,希望能对你有所帮助... 本文介绍了在Ubuntu系统中如何下载和安装Anaconda。提供了两种方法,包括通过网页手动下载和使用wg

如何在Ubuntu上安装NVIDIA显卡驱动? Ubuntu安装英伟达显卡驱动教程

《如何在Ubuntu上安装NVIDIA显卡驱动?Ubuntu安装英伟达显卡驱动教程》Windows系统不同,Linux系统通常不会自动安装专有显卡驱动,今天我们就来看看Ubuntu系统安装英伟达显卡... 对于使用NVIDIA显卡的Ubuntu用户来说,正确安装显卡驱动是获得最佳图形性能的关键。与Windo

Linux高并发场景下的网络参数调优实战指南

《Linux高并发场景下的网络参数调优实战指南》在高并发网络服务场景中,Linux内核的默认网络参数往往无法满足需求,导致性能瓶颈、连接超时甚至服务崩溃,本文基于真实案例分析,从参数解读、问题诊断到优... 目录一、问题背景:当并发连接遇上性能瓶颈1.1 案例环境1.2 初始参数分析二、深度诊断:连接状态与

史上最全nginx详细参数配置

《史上最全nginx详细参数配置》Nginx是一个轻量级高性能的HTTP和反向代理服务器,同时也是一个通用代理服务器(TCP/UDP/IMAP/POP3/SMTP),最初由俄罗斯人IgorSyso... 目录基本命令默认配置搭建站点根据文件类型设置过期时间禁止文件缓存防盗链静态文件压缩指定定错误页面跨域问题

Linux搭建单机MySQL8.0.26版本的操作方法

《Linux搭建单机MySQL8.0.26版本的操作方法》:本文主要介绍Linux搭建单机MySQL8.0.26版本的操作方法,本文通过图文并茂的形式给大家讲解的非常详细,感兴趣的朋友一起看看吧... 目录概述环境信息数据库服务安装步骤下载前置依赖服务下载方式一:进入官网下载,并上传到宿主机中,适合离线环境

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

springboot使用Scheduling实现动态增删启停定时任务教程

《springboot使用Scheduling实现动态增删启停定时任务教程》:本文主要介绍springboot使用Scheduling实现动态增删启停定时任务教程,具有很好的参考价值,希望对大家有... 目录1、配置定时任务需要的线程池2、创建ScheduledFuture的包装类3、注册定时任务,增加、删

SpringBoot请求参数接收控制指南分享

《SpringBoot请求参数接收控制指南分享》:本文主要介绍SpringBoot请求参数接收控制指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring Boot 请求参数接收控制指南1. 概述2. 有注解时参数接收方式对比3. 无注解时接收参数默认位置