西柚的大数据从踩坑到放弃-kafka:一、Kafka的概念和架构

2024-01-21 17:59

本文主要是介绍西柚的大数据从踩坑到放弃-kafka:一、Kafka的概念和架构,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kafka

本文全部内容为个人理解、做记录用,如果有误请不吝指正
一个分布式的,基于pub-sub的消息队列。Kafka是消费者主动拉取消息的。
在大数据领域作为消息传递中间件应用广泛,业界如果使用spark计算框架,有9成以上消息队列都是使用kafka。

架构

在这里插入图片描述

  • Topic:相同类型的消息按照主题来存放,不然那不就乱了么。例如你的购物车数据应该放购物车Topic,单个订单数据应该放在订单Topic
  • Partition:相当于是对Topic里面数据的一个负载均衡,生产者会把消息发送到各个分区(都是leader)
  • Broker:代理,可以简单理解成一个服务器或者kafka集群的一个节点
  • Offset:在每个partition上都对应有一个log文件(所在文件夹是以topic+partition来命名的),该文件就是存储producer来的消息,producer消息会不断追加到该文件,并且每个消息都会带来一个offset。在消费的时候,消费者组的每个消费者都会记录自己消费到哪个offset,以便下次继续消费。

分两部分看这个图,先看左半部分,生产者生产消息发到集群,那么可以看出这个topic A是有两个分区的,而生产者的消息的流向也分了两部分,这就是分区的负载均衡的作用,而message To B-0的这个topic就只有一个分区,那么这个partition承载了所有topic的数据。
另外从图中还可以看到有leader和follower,数据流向都是去往leader的,follower只是为了通过数据冗余这种途径做高可用,因为毕竟是分布式系统,在一个broker挂了之后,找不到leader,那么follower提升为leader发挥职能

再看右半部分,消费者消费消息,这里面有个消费者组的概念,消费者组内的消费者之间是竞争的关系。根据线条的消息流向我们可以看出,一个topic分区内的消息只能被一个消费者组内的某一个消费者消费(有点绕)。它的好处是提高了整体消费者的消费能力,因为没有组的话那只能一个consumer,但现在可以多个consumer共同处理。假设某个主题有3分区,那设立一个消费者组,里面包含4个消费者去消费这个主题,这肯定就没有意义了,浪费资源了,所以说并发度最好的消费就是分区数和消费组内consumer的数量相等的情况。
在实际开发或测试过程中,经常会出现大家各自测写好的模块,都从kafka取数据,那这时候各自设置一个不同的组id,就可以获得全量的数据进行测试了

再看最右部分,首先kafka是依赖于zk的,这个依赖不仅体现在kafka cluster要依托zk去存储一些东西,更体现在消费者如果挂了,zk会帮助保存消费者的offset消费位置信息。这是0.9版本之前的,0.9版本之后上述信息全部存到cluster由集群内部维护。

这篇关于西柚的大数据从踩坑到放弃-kafka:一、Kafka的概念和架构的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/630373

相关文章

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

mysql中的服务器架构详解

《mysql中的服务器架构详解》:本文主要介绍mysql中的服务器架构,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、mysql服务器架构解释3、总结1、背景简单理解一下mysqphpl的服务器架构。2、mysjsql服务器架构解释mysql的架

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左