Elasticsearch:Simulate ingest API

2024-01-23 09:52

本文主要是介绍Elasticsearch:Simulate ingest API,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ingest pipeline 为我们摄入数据提供了极大的方便。在我之前的文章中,有非常多的有关 ingest pipeline 的文章。请详细阅读文章 “Elastic:开发者上手指南”。针对一组提供的文档执行摄取管道,可以选择使用替代管道定义。 Simulate ingest API 旨在用于故障排除或管道开发,因为它实际上并不将任何数据索引到 Elasticsearch 中。

注意:这个功能在 Elastic Stack 8.12 开始提供。

准备

为了测试这个 API,我们先来创建几个 pipelines:

创建一个 default pipeline

PUT _ingest/pipeline/default-pipeline
{"description": "This is the default pipeline","processors": [{"set": {"field": "default","value": "default"}}]
}

创建一个 final pipeline

PUT _ingest/pipeline/final-pipeline
{"description": "This is a final pipeline","processors": [{"set": {"field": "final","value": "final"}}]
}

我们接下来创建一个叫做 my-index 的索引:

PUT my-index
{"settings": {"default_pipeline": "default-pipeline","final_pipeline": "final-pipeline"}
}

在上面,我们使用了 default_pipeline 及 final_pipeline。final pipeline 是在任何时候都会被调用的 pipeline。

测试 simulate ingest API

为了测试 ingest pipeline,我们可以尝试如下的例子:

POST /_ingest/_simulate
{"docs": [{"_index": "my-index","_id": "id","_source": {"foo": "bar"}},{"_index": "my-index","_id": "id","_source": {"foo": "rab"}}]
}

上面的命令返回如下的结果:

从上面的结果中,我们可以看出来在不传入任何的 pipeline 的情况下,default pipeline 及 final pipeline 都被调用。

我们还可以替换掉上面的 default pipeline,比如:

POST /_ingest/_simulate
{"docs": [{"_index": "my-index","_id": "id","_source": {"foo": "bar"}},{"_index": "my-index","_id": "id","_source": {"foo": "rab"}}],"pipeline_substitutions": {"default-pipeline": {"processors": [{"set": {"field": "test","value": "test"}}]}}
}

在上面,我们替换在索引中配置的 default-pipeline。我们运行上面的命令,结果如下:

很显然尽管 executed_pipelines 里显示的还是 default-pipeline,但是我们的结果里增加的字段是 test。显然我们的 pipeline 已经被置换了。

使用同样的方法,我们也可以替换掉 final_pipeline:

POST /_ingest/_simulate
{"docs": [{"_index": "my-index","_id": "id","_source": {"foo": "bar"}},{"_index": "my-index","_id": "id","_source": {"foo": "rab"}}],"pipeline_substitutions": {"final-pipeline": {"processors": [{"set": {"field": "final-test","value": "final-test"}}]}}
}

请求

POST /_ingest/_simulateGET /_ingest/_simulatePOST /_ingest/<target>/_simulateGET /_ingest/<target>/_simulate

前提条件

如果启用了Elasticsearch安全功能,你必须具有 index 或 create 索引权限才能使用此 API。

描述

Simulate ingest API 模拟将数据摄取到索引中。 它针对请求正文中提供的一组文档执行该索引的 default 和 final pipeline。 如果管道包含 reroute processor,它将遵循该重新路由处理器到新索引,以与非模拟摄取相同的方式执行该索引的管道。 没有数据被索引到 Elasticsearch 中。 相反,将返回转换后的文档,以及已执行的管道列表以及如果这不是模拟则文档将被索引的索引名称。 这与 simulate pipeline API 的不同之处在于,你为该 simulate pipeline API 指定单个管道,并且它仅运行该管道。Simulate pipeline API 对于开发单个管道更有用,而 simulate ingest API 对于对摄取到索引时应用的各种管道的交互进行故障排除更有用。

默认情况下,使用系统中当前的管道定义。 但是,你可以在请求正文中提供替代管道定义。 这些将用于代替系统中已有的管道定义。 这可用于替换现有的管道定义或创建新的管道定义。 管道替换仅在此请求中使用。

路径参数

<target>

  • (可选,字符串)模拟摄取的索引名称。 这可以通过在每个文档上指定索引来覆盖。 如果你在请求路径中提供 <target>,它将用于任何未显式指定索引参数的文档。

查询参数

pipeline

  • (可选,字符串)用作默认管道的管道。 这可用于覆盖正在摄取的索引的默认管道。
PUT _ingest/pipeline/new-pipeline
{"description": "This is a new pipeline","processors": [{"set": {"field": "new-default","value": "new-default"}}]
}
POST /_ingest/_simulate?pipeline=new-pipeline
{"docs": [{"_index": "my-index","_id": "id","_source": {"foo": "bar"}},{"_index": "my-index","_id": "id","_source": {"foo": "rab"}}]
}

请求正文

docs

  • (必需,对象数组)要在管道中测试的示例文档。
  • docs 对象的属性
_id(可选,字符串)文档的唯一标识符。
_index(可选,字符串)文档将被提取到的索引的名称。
_source(必需,对象)文档的 JSON 正文。

pipeline_substitutions

  • (可选,字符串到对象的映射)用于替换管道定义对象的管道 ID 映射。
  • pipeline 定义对象的属性
description(可选,字符串)摄取管道的描述。
on_failure

(可选,处理器对象数组)处理器发生故障后立即运行的处理器。

每个处理器都支持处理器级 on_failure 值。 如果没有 on_failure 值的处理器发生故障,Elasticsearch 将使用此管道级参数作为后备。 该参数中的处理器按照指定的顺序依次运行。 Elasticsearch 不会尝试运行管道的剩余处理器。

processors

(必需,处理器对象数组)用于在索引之前对文档执行转换的处理器。 处理器按照指定的顺序依次运行。
version

(可选,整数)外部系统用于跟踪摄取管道的版本号。

有关版本属性的使用方式,请参阅上面的 if_version 参数。

_meta(可选,对象)有关摄取管道的可选元数据。 可能有任何内容。 该 map 不是由 Elasticsearch 自动生成的。
deprecated(可选,布尔值)将此摄取管道标记为已弃用。 当创建或更新未弃用的索引模板时,将已弃用的摄取管道引用为默认或最终管道时,Elasticsearch 将发出弃用警告。

这篇关于Elasticsearch:Simulate ingest API的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/636028

相关文章

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

Python用Flask封装API及调用详解

《Python用Flask封装API及调用详解》本文介绍Flask的优势(轻量、灵活、易扩展),对比GET/POST表单/JSON请求方式,涵盖错误处理、开发建议及生产环境部署注意事项... 目录一、Flask的优势一、基础设置二、GET请求方式服务端代码客户端调用三、POST表单方式服务端代码客户端调用四

SpringBoot结合Knife4j进行API分组授权管理配置详解

《SpringBoot结合Knife4j进行API分组授权管理配置详解》在现代的微服务架构中,API文档和授权管理是不可或缺的一部分,本文将介绍如何在SpringBoot应用中集成Knife4j,并进... 目录环境准备配置 Swagger配置 Swagger OpenAPI自定义 Swagger UI 底

使用Python的requests库调用API接口的详细步骤

《使用Python的requests库调用API接口的详细步骤》使用Python的requests库调用API接口是开发中最常用的方式之一,它简化了HTTP请求的处理流程,以下是详细步骤和实战示例,涵... 目录一、准备工作:安装 requests 库二、基本调用流程(以 RESTful API 为例)1.

SpringBoot监控API请求耗时的6中解决解决方案

《SpringBoot监控API请求耗时的6中解决解决方案》本文介绍SpringBoot中记录API请求耗时的6种方案,包括手动埋点、AOP切面、拦截器、Filter、事件监听、Micrometer+... 目录1. 简介2.实战案例2.1 手动记录2.2 自定义AOP记录2.3 拦截器技术2.4 使用Fi

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

使用Python实现调用API获取图片存储到本地的方法

《使用Python实现调用API获取图片存储到本地的方法》开发一个自动化工具,用于从JSON数据源中提取图像ID,通过调用指定API获取未经压缩的原始图像文件,并确保下载结果与Postman等工具直接... 目录使用python实现调用API获取图片存储到本地1、项目概述2、核心功能3、环境准备4、代码实现

无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案

《无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案》:本文主要介绍了无法启动此程序,详细内容请阅读本文,希望能对你有所帮助... 在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是"api-ms-win-core-path-l1-1-0.dll丢失

python通过curl实现访问deepseek的API

《python通过curl实现访问deepseek的API》这篇文章主要为大家详细介绍了python如何通过curl实现访问deepseek的API,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编... API申请和充值下面是deepeek的API网站https://platform.deepsee