kafka日志索引存储及Compact压实机制深入剖析-kafka 商业环境实战

本文主要是介绍kafka日志索引存储及Compact压实机制深入剖析-kafka 商业环境实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:1120746959@qq.com,如有任何商业交流,可随时联系。

1 kafka日志特点

  • kafka日志不是松散的结构化请求日志,错误日志或其他日志。

  • 类似于关系型数据库中的记录,只能按照时间顺序在日志尾部追加写入日志,存储的不可能是原生消息,而是消息集合或者消息batch(10版V2)。

  • 每一条日志都会被分配一个唯一的且顺序增加的记录号,作为定位该消息的位移标识。

  • kafka的日志设计都是以分区为单位进行的。

  • 对于每一个分区日志都会进一步细分为日志段(log segment file)以及日志段索引文件。每个目录下面有三个日志文件,xxx.log是消息集文件, xxx.index 偏移量索引文件 ,xxx.timeindex 时间戳索引文件:

      00000000000000000000.index  00000000000000000000.log  00000000000000000000.timeindex
    
  • kafka日志是按照topic来组织的,每个topic可以分成多个的partition。名字为 -<分区号>,即:page_visits-0。比如:有5个partition的名为page_visits的topic的目录结构为:

  • kafka topic 对应的 partition是分段的,每个段叫LogSegment,包括了一个数据文件和一个索引文件,下图是某个partition目录下的文件:

  • 注意第二条消息368769.log表示该日志段的第一条消息位移是368769,同时也说明上一个日志段包含了368768条消息。

  • 日志段文件的大小是有上限的,默认大小是1GB,当日志段文件填满记录后,kafka会创建一组新的日志段文件和索引文件。

  • kafka 分区日志还包含.index和.timeindex。注意这里的.index索引是稀疏索引(Sparse index file),默认是日志写入大小达到4KB时,才会在.index中增加一个索引项。可以通过log.index.interval.bytes来设置这个间隔大小。

  • 索引文件的打开方式:只读模式和读写模式。当前日志段的索引文件可以以读写模式打开,非当前的日志段文件只能以只读方式打开。

  • 索引文件的大小默认值是10MB,可以通过参数log.index.size.max.bytes来设置索引文件的最大文件大小。

  • 索引文件项格式如下所示,要求每一个索引项必须占用8个字节,log.index.size.max.bytes且必须是8的整数倍,否则会回退到8的整数倍。

  • 举例如下:若用户需要查找相对位移为4的消息,那么首先会通过二分查找算法找到小于4的最大索引项是4597。那么kafka就会从.log文件中从4597开始查找,直到最后找到4597。如果想要增加索引项的密度。可以设置log.index.interval.bytes,默认是4KB。

2 日志留存清理策略

2.1 日志的留存

log.retention.bytes 删除前日志文件允许保存的最大值,默认是-1,表示kafka不会对log进行大小方面的限制。

log.retention.hours 日志保存的时间,可以选择 hours,minutes和ms。默认是7天。

2.2 日志的清理和压实Compact

针对每个消息的key进行整合,对于有相同key的的不同value值,只保留最后一个版本

  • log.cleanup.policty

    日志清理保存的策略只有delete和compact两种,其中delete是默认值,就是日志留存的机制决定的。另外一个是compact则解决的是压实问题。从0.10.1.0版本开始,可以同时指定两种策略:log.cleanup.policty =delete,compact 表示可以同时为Topic执行普通的留存策略,也对其执行log comaction策略。

  • log.cleaner.enable:

    表示开启日志清理机制,自0.9开始默认为true。若要使用compact,则必须设置log.cleaner.enable=true

  • log.cleaner.min.compaction.lag.ms:

    默认是0,表示除了当前日志段,所有日志段都是可以清理的。但是假如设置log.cleaner.min.compaction.lag.ms=10min,则下午2点为当前时间时,13:50之后的日志段不被清理。

2.3 日志的合并

经过一次次清理后,各个segment大小会慢慢变小。为了避免日志目录下有过多的小文件,kafka在每次日志清理后会进行小文件日志合并。kafka会保证合并后的segment大小不超过segmentSize(通过log.segments.bytes设置,默认值是1G),且对应的索引文件占用大小之和不超过maxIndexSize(可以通过broker端参数log.index.interval.bytes设置,默认值为10MB)

3 结语

愉快的周末即将结束,挣扎完后,依然需要昂首前行,辛苦成文,各自珍惜!谢谢!

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:1120746959@qq.com,如有任何商业交流,可随时联系。

秦凯新 201811252328

这篇关于kafka日志索引存储及Compact压实机制深入剖析-kafka 商业环境实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/441265

相关文章

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面:本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一:使用 which命令方法二:使用 Java_home工具(Apple 官方推荐)那问题来了,

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Nginx搭建前端本地预览环境的完整步骤教学

《Nginx搭建前端本地预览环境的完整步骤教学》这篇文章主要为大家详细介绍了Nginx搭建前端本地预览环境的完整步骤教学,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录项目目录结构核心配置文件:nginx.conf脚本化操作:nginx.shnpm 脚本集成总结:对前端的意义很多

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

JAVA实现Token自动续期机制的示例代码

《JAVA实现Token自动续期机制的示例代码》本文主要介绍了JAVA实现Token自动续期机制的示例代码,通过动态调整会话生命周期平衡安全性与用户体验,解决固定有效期Token带来的风险与不便,感兴... 目录1. 固定有效期Token的内在局限性2. 自动续期机制:兼顾安全与体验的解决方案3. 总结PS

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

k8s搭建nfs共享存储实践

《k8s搭建nfs共享存储实践》本文介绍NFS服务端搭建与客户端配置,涵盖安装工具、目录设置及服务启动,随后讲解K8S中NFS动态存储部署,包括创建命名空间、ServiceAccount、RBAC权限... 目录1. NFS搭建1.1 部署NFS服务端1.1.1 下载nfs-utils和rpcbind1.1

Java 日志中 Marker 的使用示例详解

《Java日志中Marker的使用示例详解》Marker是SLF4J(以及Logback、Log4j2)提供的一个接口,它本质上是一个命名对象,你可以把它想象成一个可以附加到日志语句上的标签或戳... 目录什么是Marker?为什么使用Markejavascriptr?1. 精细化的过滤2. 触发特定操作3

一文详解MySQL索引(六张图彻底搞懂)

《一文详解MySQL索引(六张图彻底搞懂)》MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度,:本文主要介绍MySQL索引的相关资料,文中通过代码介绍的... 目录一、什么是索引?为什么需要索引?二、索引该用哪种数据结构?1. 哈希表2. 跳表3. 二叉排序树4.