如何用logstash处理列式存储的文件

2023-10-23 14:59
文章标签 处理 存储 logstash 列式

本文主要是介绍如何用logstash处理列式存储的文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

最近遇到一个问题,朋友需要使用es去处理一些基因数据,其特点和其他的数据不一样,对象的个数很少,但每个对象下面有很多field。并且field的值是动态添加的,用列式存储数据是最为方便的。

方便起见,画了个示意图,file1是行式存储,即我们常见的csv,第一行是标题,后面每一行就是一条记录。

而file2,则是列式存储,第一列式header,后面每一列都是一条记录
在这里插入图片描述
要使用logstash或者其他任何工具处理这个文本都会带来不小的麻烦。因为,对于文件的处理,我们是按行写入的,通过\n等换行符进行行的区分(计算机语言里面没有换列符的说法);同理,在读取的时候,我们顺序从文件开头读取,也是每检测到一个换行符认为是一行。

我们比较读取第一行和第一列的区别,如果我们要读取文件的第一行,只需要遇到第一个换行符就可以结束了,而要读取第一列,则非得读完所有的行才行,基本上是读完整个文件。

但这样也有一个好处,就是为每条记录增加一个属性时,只需要增加一行即可,而行式存储则无法做到。

需求

现在,假设我们遇到这样的一个csv文件:
在这里插入图片描述
它有几个特点:

  • 标签在第一列,标签的值在第2列~第N列
  • 有些标签只有一个值,有些标签有N个值
  • ,作为分隔符

我们希望logstash将该csv解释为如下数据,并存储到ES中:
在这里插入图片描述
即:

  • 第一列作为field
  • 每一列的标签值作为一个doc
  • 只有一列的标签值,复制到每一列当中

解决思路

在上文已经提到了,如果我们要按列来生成记录(doc)存储到elasitcsearch里面,必须一次性读取整个文件。这样会带来一个问题,即文件有新增的时候,即为每条记录增加一个属性时,我们需要update之前生成的所有doc,这个问题可以解决,但我们先不在这里讨论。总之,要处理列式数据,我们不可能一行一行的读数据,因为logstash是流式处理,来一条数据会马上开始处理,处理之后会直接放到es,然后开始下一个数据的处理,而不会等所有数据来了之后再合并处理。而且根据worker数量的设置,该流程是并发的,并没有时序保证。因此,必须一次读完整个文件。我们可以使用filebeat,或者直接使用file plugin:

input{file {path => "/tmp/test.csv"start_position => "beginning"sincedb_path => "/dev/null"ignore_older => 0close_older => 0codec => multiline {pattern => "^\r\n"negate => "false"what => "previous"}}
}

注意,每个版本的logstash的参数不一样,而且最后一行需要有一个空行

当我们读完整个文件,该文件在logstash里面就是一个完整的event,此时,我们首先要提取第一列来作为field。这个可以采用kv插件。
文件读进来,在内存中是如下模型:

#Platform,V40_BGISEQXXX\r\n
#DateTime,2019-06-15 14:21:44\r\n
fovname,C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009\r\n
...

我们首先要把第一个,转为其他符号,比如=,来方便kv插件操作。mutate插件的gsub可以帮我们做到:

filter {mutate {gsub => ["message", "(^.*?),","\1="]}
}

然后使用kv:

  kv {field_split => "\r\n"remove_field => ["message"]}

注意,处理完之后我们就可以丢弃message了。此时logstash的event应该包含为:

{"#Platform": "V40_BGISEQXXX","#DateTime": "2019-06-15 14:21:44","fovname": “C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009”,...
}

接下来,我们需要将这个event按列拆分成多个event,然后每个event输出为一个doc到elasticsearch。具体可以参考split插件的做法,但这里必须使用ruby插件自己实现逻辑,这里给出参考࿱

这篇关于如何用logstash处理列式存储的文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/268582

相关文章

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Java Response返回值的最佳处理方案

《JavaResponse返回值的最佳处理方案》在开发Web应用程序时,我们经常需要通过HTTP请求从服务器获取响应数据,这些数据可以是JSON、XML、甚至是文件,本篇文章将详细解析Java中处理... 目录摘要概述核心问题:关键技术点:源码解析示例 1:使用HttpURLConnection获取Resp

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2