如何用logstash处理列式存储的文件

本文主要是介绍如何用logstash处理列式存储的文件，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

背景

最近遇到一个问题，朋友需要使用es去处理一些基因数据，其特点和其他的数据不一样，对象的个数很少，但每个对象下面有很多field。并且field的值是动态添加的，用列式存储数据是最为方便的。

方便起见，画了个示意图，file1是行式存储，即我们常见的csv，第一行是标题，后面每一行就是一条记录。

而file2，则是列式存储，第一列式header，后面每一列都是一条记录
在这里插入图片描述
要使用logstash或者其他任何工具处理这个文本都会带来不小的麻烦。因为，对于文件的处理，我们是按行写入的，通过\n等换行符进行行的区分（计算机语言里面没有换列符的说法）；同理，在读取的时候，我们顺序从文件开头读取，也是每检测到一个换行符认为是一行。

我们比较读取第一行和第一列的区别，如果我们要读取文件的第一行，只需要遇到第一个换行符就可以结束了，而要读取第一列，则非得读完所有的行才行，基本上是读完整个文件。

但这样也有一个好处，就是为每条记录增加一个属性时，只需要增加一行即可，而行式存储则无法做到。

需求

现在，假设我们遇到这样的一个csv文件：
在这里插入图片描述
它有几个特点：

标签在第一列，标签的值在第2列～第N列
有些标签只有一个值，有些标签有N个值
以,作为分隔符

我们希望logstash将该csv解释为如下数据，并存储到ES中：
在这里插入图片描述
即：

第一列作为field
每一列的标签值作为一个doc
只有一列的标签值，复制到每一列当中

解决思路

在上文已经提到了，如果我们要按列来生成记录（doc）存储到elasitcsearch里面，必须一次性读取整个文件。这样会带来一个问题，即文件有新增的时候，即为每条记录增加一个属性时，我们需要update之前生成的所有doc，这个问题可以解决，但我们先不在这里讨论。总之，要处理列式数据，我们不可能一行一行的读数据，因为logstash是流式处理，来一条数据会马上开始处理，处理之后会直接放到es，然后开始下一个数据的处理，而不会等所有数据来了之后再合并处理。而且根据worker数量的设置，该流程是并发的，并没有时序保证。因此，必须一次读完整个文件。我们可以使用filebeat，或者直接使用file plugin:

input{file {path => "/tmp/test.csv"start_position => "beginning"sincedb_path => "/dev/null"ignore_older => 0close_older => 0codec => multiline {pattern => "^\r\n"negate => "false"what => "previous"}}
}

注意，每个版本的logstash的参数不一样，而且最后一行需要有一个空行

当我们读完整个文件，该文件在logstash里面就是一个完整的event，此时，我们首先要提取第一列来作为field。这个可以采用kv插件。
文件读进来，在内存中是如下模型：

#Platform,V40_BGISEQXXX\r\n
#DateTime,2019-06-15 14:21:44\r\n
fovname,C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009\r\n
...

我们首先要把第一个,转为其他符号，比如=,来方便kv插件操作。mutate插件的gsub可以帮我们做到：

filter {mutate {gsub => ["message", "(^.*?),","\1="]}
}

然后使用kv：

  kv {field_split => "\r\n"remove_field => ["message"]}

注意，处理完之后我们就可以丢弃message了。此时logstash的event应该包含为：

{"#Platform": "V40_BGISEQXXX","#DateTime": "2019-06-15 14:21:44","fovname": “C003R003,C003R004,C003R005,C003R006,C003R007,C003R008,C003R009”,...
}

接下来，我们需要将这个event按列拆分成多个event，然后每个event输出为一个doc到elasticsearch。具体可以参考split插件的做法，但这里必须使用ruby插件自己实现逻辑，这里给出参考࿱

这篇关于如何用logstash处理列式存储的文件的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

如何用logstash处理列式存储的文件

背景

需求

解决思路

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解

Python实现批量CSV转Excel的高性能处理方案

Python中 try / except / else / finally 异常处理方法详解

PHP应用中处理限流和API节流的最佳实践

MyBatis-plus处理存储json数据过程

Python自动化处理PDF文档的操作完整指南

C# LiteDB处理时间序列数据的高性能解决方案

基于Redis自动过期的流处理暂停机制

Java利用@SneakyThrows注解提升异常处理效率详解