InfluxDB存储引擎—— TSI文件与数据读取

2024-02-27 23:50

本文主要是介绍InfluxDB存储引擎—— TSI文件与数据读取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章暂未完成

在上一篇文章《InfluxDB存储引擎—— TSM文件与数据写入》中,对数据写入流程和数据文件的结构进行了介绍,再了解了数据写入流程和TSM文件结构之后,我们知道数据在磁盘是按时间、按数据源、按列存储的,在这样的存储结构上,读取数据的流程是怎样的呢?采用了哪些数据结构或文件来提升查询的效率呢?这就是本篇文章要讲的内容。

目录

数据读取流程

基于内存的倒排索引

作用

核心数据结构及其作用

优缺点

基于磁盘的倒排索引-TSI文件

TSI文件的作用

TSI文件的结构

Measurement Block

Tag Block

Series Block


数据读取流程

时序数据最常见的查询场景有两个:按时间维度查询 和按数据源维度查询。如何提高这两个场景的查询效率是每种时序数据库都要充分考虑的问题。

结合之前的文章中所提到的数据写入流程和存储结构,我们很容易了解到InfluxDB中,如果能根据查询条件确定数据所属的时间范围和series(即所属数据源的唯一标识),即可大量减少数据扫描的范围,从而提高性能。InfluxDB正是通过这样的方式来提高查询数据的效率。

假设在如下图的场景中,需要查询atlalsdata发布在baidu的所有广告20188月份的pc端的总点击量:

查询语句:

select sum(pc) from advertise 
where publisher=‘atlasdata’ and platform = ‘baidu’ 
and time>='2018-08-01' and time <'2018-09-01'

数据读取的流程:

第一步:找出atlasdata发布在baidu的所有广告的seriesKey

第二步:根据seriesKey找到这些广告20188月份的数据

              通过时间范围确定存储2018年8月份数据的shardgroup, 再根据seriesKey进行hash找到shardgroup下存储这些数据源的shard

第三步:找出这些数据中的pc端的数据

               扫描每个shard中的TSM文件中的index block,找到符合条件的data block,再在data block中把符合条件的所查询的数据筛选出来进行聚合

查询流程中的第二步和第三步通过简单的说明都很好理解,那第一步是如何实现的呢?IinfluxDB通过对tags创建倒排索引来达到这一目的,详细请看下文。

基于内存的倒排索引

作用

提高数据源维度的查询效率:找出符合查询条件的所有数据源的seriesKey

核心数据结构及其作用

  • map<tagkey, map<tagvalue, List<SeriesID>>>

保存每个tag对应的所有值对应的所有seriesID,通过条件(比如 tag1='value')获取满足条件的所有数据源的唯一标识

tagkey: 数据源属性名称

tagvalue: tagkey所指属性的值

SeriesID:满足tagkey=tagvalue的所有数据源的唯一标识,seriesID与数据源唯一标识SeriesKey一一对应

 

  • map< SeriesID,SeriesKey>

保存seriesIDSeriesKey的映射关系,通过seriesID获取seriesKey

为什么第一个双重map中不直接用SeriesKey呢?是为了节省内存空间,举个例子:

假如现在有3个Tag组合形成一个seriesKey:measurement=m_name,tag_1=value_1,tag_2=value_2,tag_3=value_3。那么构造形成的双重map结构:

<tag_1, <value_1, seriesKey>>
<tag_2, <value_2, seriesKey>>
<tag_3, <value_3, seriesKey>>

可以发现同一个seriesKey在内存中有多份冗余,而且seriesKey = measurement + tags,随着tag值的增加,内存消耗非常明显,因此为了节省内存消耗,采用Int对seriesKey进行编码,代替双重map中的seriesKey

优缺点

  • 优点

       加快数据源维度的查询效率

  • 缺点

      1. 受限于内存大小

       2. 一旦InfluxDB进程宕掉,需要扫描解析所有TSM文件并在内存中重新构建,恢复时间很长。

基于磁盘的倒排索引-TSI文件

上一节中介绍了基于内存的倒排索引,其作用是提升数据源维度的查询效率,但其缺点也非常明显且影响很大,为了解决这些问题,InfluxDB实现了基于磁盘的倒排索引,用TSI文件来存储索引信息,下文将对其结构和各模块的作用进行详细讲解。

TSI文件的作用

提高数据源维度的查询效率:找出符合查询条件的所有数据源的seriesKey,并解决内存索引受限于内存大小、恢复时间长的问题。

TSI文件的结构

下图中对TSI文件的结构和各大模块所存储的内容及作用做了简单说明,下文将对每个模块内部结构进行详细描述:

Measurement Block

作用:找到对应的measurement信息,并获取表的tag对应的Tag blockoffset/size

结构:

Measurement Block由三大部分组成

  • Block Trailer : 记录各模块的offset和size
  • HashIndex : 记录每个measurement的偏移量
  • Mesurement : 记录具体表的信息,包括表的名称、所有tag对应的Tag Block的offset和size等

Measurement Block的扫描流程如下:

  1. 首先在TSI文件的Index File Trailer部分获取整个Mesurement Block的offset和size,
  2. 然后再根据Measurement Block中的Block Trailer和Hash Index确认要查询的表对应的Measurement的位置,
  3. 读取对应的Measurement中的Tag Block的offset和size

Tag Block

作用:根据条件中tag及值找到满足条件的所有seriesID

结构:

Series Block

作用:

结构:

 

这篇关于InfluxDB存储引擎—— TSI文件与数据读取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753919

相关文章

Python实现获取带合并单元格的表格数据

《Python实现获取带合并单元格的表格数据》由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,所以本文我们就来聊聊如何使用Python实现获取带合并单元格的表格数据吧... 由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,现将将封装成类,并通过调用list_exc

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、

java变量内存中存储的使用方式

《java变量内存中存储的使用方式》:本文主要介绍java变量内存中存储的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、变量的定义3、 变量的类型4、 变量的作用域5、 内存中的存储方式总结1、介绍在 Java 中,变量是用于存储程序中数据

Spring Validation中9个数据校验工具使用指南

《SpringValidation中9个数据校验工具使用指南》SpringValidation作为Spring生态系统的重要组成部分,提供了一套强大而灵活的数据校验机制,本文给大家介绍了Spring... 目录1. Bean Validation基础注解常用注解示例在控制器中应用2. 自定义约束验证器定义自

C#实现高性能Excel百万数据导出优化实战指南

《C#实现高性能Excel百万数据导出优化实战指南》在日常工作中,Excel数据导出是一个常见的需求,然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈,下面我们看看C#如何结合EPPl... 目录一、技术方案核心对比二、各方案选型建议三、性能对比数据四、核心代码实现1. MiniExcel

SQL常用操作精华之复制表、跨库查询、删除重复数据

《SQL常用操作精华之复制表、跨库查询、删除重复数据》:本文主要介绍SQL常用操作精华之复制表、跨库查询、删除重复数据,这些SQL操作涵盖了数据库开发中最常用的技术点,包括表操作、数据查询、数据管... 目录SQL常用操作精华总结表结构与数据操作高级查询技巧SQL常用操作精华总结表结构与数据操作复制表结

Redis中的数据一致性问题以及解决方案

《Redis中的数据一致性问题以及解决方案》:本文主要介绍Redis中的数据一致性问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Redis 数据一致性问题的产生1. 单节点环境的一致性问题2. 网络分区和宕机3. 并发写入导致的脏数据4. 持

SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法

《SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法》在SQLyog中执行存储过程时出现的前置缩进问题,实际上反映了SQLyog对SQL语句解析的一个特殊行为,本文给大家介绍了详... 目录问题根源正确写法示例永久解决方案为什么命令行不受影响?最佳实践建议问题根源SQLyog的语句分