【ElasticSearch】(五)“Result window is too large 深度分页”的利弊权衡

2024-08-26 20:58

本文主要是介绍【ElasticSearch】(五)“Result window is too large 深度分页”的利弊权衡,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    如题,在使用elastic search的dsl查询过程中,遇到了如下问题:

{"error": {"root_cause": [{"type": "query_phase_execution_exception","reason": "Result window is too large, from + size must be less than or equal to: [200] but was [1000]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."}],"type": "search_phase_execution_exception","reason": "all shards failed","phase": "query","grouped": true,"failed_shards": [{"shard": 0,"index": "fcar_city","node": "7EtAlFI7QEOpQD3rHvTm0g","reason": {"type": "query_phase_execution_exception","reason": "Result window is too large, from + size must be less than or equal to: [200] but was [1000]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."}}]},"status": 500
}

     比较不解,我的dsl语句是这样:

{"query": {"bool": {"must": [{"match_all": {}
}
]
}
},"from": 0,"size": 1000

}

     仅仅是对“fcar_city”这一个索引,做了“match_all”查询,结果:result windows is too large.很不解。网上搜索,大致的解决方案,是通过修改“max_result_window”,比预设的size值大即可,比如:

PUT fcar_city/_settings
{"index":{"max_result_window":1000000}
}

     我对fcar_city索引重设max_result_window属性,之后dsl查询成功。

      

     过程中在stackoverflow上看到一个帖子,直接修改上述属性会导致一些问题,比如 high memory consumption,这里牵扯到一个概念“deep paging”(深度分页),es官方对其介绍:

     https://www.elastic.co/guide/en/elasticsearch/guide/current/pagination.html

     https://www.elastic.co/guide/en/elasticsearch/guide/current/_fetch_phase.html

    介绍分页:

    1.es要实现mysql中limit的效果,通过from size来做。

  size :指示应返回的结果数,默认为 10

  from  :指示应跳过的初始结果数,默认为 0

  举例,每页现实5条记录,分3页,分别获取第1~3页的内容:

GET / _search ?size = 5 
GET / _search ?size = 5 &from = 5 
GET / _search ?size = 5 &from = 10

       之所以说调大max_result_window会导致high memory consumption,从根上讲,搜索请求通常跨越多个分片,每个分片都会生成自己的排序结果,然后需要对其进行集中排序以确保整体顺序正确。

       如果分页太深或一次请求太多结果(max_result_window调大),假设我们在一个索引中搜索五个主分片,当我们请求结果的第一页(结果1到10)时,每个分片产生它自己的前10个结果并将它们返回到协调节点,然后协调节点对所有50个结果进行排序以选择整个前10个。现在想象我们要求第1,000页 - 即结果(10,001到10,010)。一切都以相同的方式工作,每个分片产生其前10,010个结果。然后,协调节点对所有50,050个结果进行排序,并丢弃其中的50,040个结果!可见,在分布式系统中,排序结果的成本随着页面越深而呈指数级增长。

 

      除此之外,在分布式中执行搜索,获取阶段的过程如下:

      

     

1.协调节点识别需要获取哪些文档GET并向相关分片发出多请求。
2.如果需要, 每个分片都会加载文档并丰富它们,然后将文档返回到协调节点。
3.获取所有文档后,协调节点将结果返回给客户端。

       协调节点首先决定实际需要获取哪些文档。例如,如果我们的查询指定{ "from": 90, "size": 10 },前90个结果将被丢弃,只需要检索接下来的10个结果。这些文档可能来自原始搜索请求中涉及的一个,部分或全部分片。     一旦协调节点收到所有结果,它就会将它们组装成一个返回给客户端的响应。  

        在fetch-phrase过程中,多个分片上会涉及到深度分页:

        query-then-fetch进程支持使用fromsize 参数进行分页,但是在限制范围内。 请记住,每个分片必须构建一个长度优先级队列from + size,所有这些队列都需要传递回协调节点。并且协调节点需要对 number_of_shards * (from + size)文档进行排序以便找到正确的 size文档。根据文档的大小,分片数量以及硬件,分页10,000到50,000个结果(1,000到5,000页)深度应该是完全可行的。但是,如果使用足够大的from值,则使用大量的CPU,内存和带宽,排序过程会变得非常沉重。

 

       所以说,解决“Result window is too large, from + size must be less than or equal to: [200] but was [1000]”这样的问题,偷懒的话,设置max_result_window满足业务需求,但是影响了集群的性能。如果想要避免deep paging导致的high memory consumption问题,请参考下一篇博客。关于scroll api.

 

 

 

这篇关于【ElasticSearch】(五)“Result window is too large 深度分页”的利弊权衡的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109665

相关文章

Mybatis的分页实现方式

《Mybatis的分页实现方式》MyBatis的分页实现方式主要有以下几种,每种方式适用于不同的场景,且在性能、灵活性和代码侵入性上有所差异,对Mybatis的分页实现方式感兴趣的朋友一起看看吧... 目录​1. 原生 SQL 分页(物理分页)​​2. RowBounds 分页(逻辑分页)​​3. Page

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

如何更改pycharm缓存路径和虚拟内存分页文件位置(c盘爆红)

《如何更改pycharm缓存路径和虚拟内存分页文件位置(c盘爆红)》:本文主要介绍如何更改pycharm缓存路径和虚拟内存分页文件位置(c盘爆红)问题,具有很好的参考价值,希望对大家有所帮助,如有... 目录先在你打算存放的地方建四个文件夹更改这四个路径就可以修改默认虚拟内存分页js文件的位置接下来从高级-

Spring Boot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)

《SpringBoot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)》:本文主要介绍SpringBoot拦截器Interceptor与过滤器Filter深度解析... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现与实

MyBatis分页插件PageHelper深度解析与实践指南

《MyBatis分页插件PageHelper深度解析与实践指南》在数据库操作中,分页查询是最常见的需求之一,传统的分页方式通常有两种内存分页和SQL分页,MyBatis作为优秀的ORM框架,本身并未提... 目录1. 为什么需要分页插件?2. PageHelper简介3. PageHelper集成与配置3.

Maven 插件配置分层架构深度解析

《Maven插件配置分层架构深度解析》:本文主要介绍Maven插件配置分层架构深度解析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Maven 插件配置分层架构深度解析引言:当构建逻辑遇上复杂配置第一章 Maven插件配置的三重境界1.1 插件配置的拓扑

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步