kafka专题

Kafka-核心架构-分区、副本(含副本选举机制)

Kafka概述 Kafka-核心架构-分区 Kafka的分区是将数据在主题(Topic)中逻辑上划分成多个片段的机制。 分区使得数据可以被水平扩展,提高了Kafka的可伸缩性和吞吐量,并允许数据在集群中分布和并行处理。 1.Kafka 分区的作用 (1)数据分布和负载均衡: Kafka通过将数据分割成多个分区并在集群中分布这些分区来实现数据的水平扩展和负载均衡。每个分区可以在集

消息队列( Kafka)

使用场景 日志处理: 大并发量时 ,将日志写入消息队列 消息通讯 点对点消息队列 产品 目前生产环境,使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等 **将要介绍的: Kafka** 优势 高吞吐:非常普通的硬件Kafka也可以支持每秒数百万的消息 支持通过Kafka服务器和消费集群来区分消息 支持Hadoop并行数据加载

kafka配置项offsets.retention.minutes导致offset丢失的问题

最近在一个项目中遇到kafka的current-offset丢失的问题。 问题现象是,服务程序在暂停kafka的一个topic消费后,过了一天多,运维人员发现这个topic的消费组的current-offset丢失,在服务程序继续消费这个topic,消费者只能从最新的offset开始消费,导致之前一天累积的数据没有被处理。 经过排查发现,是kafka的配置项offsets.retention.

Spark踩坑记——Spark Streaming+Kafka

前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在S

kafka(3) -- 连接导入、导出数据

有些场景下Kafka需要使用其他来源的数据或导出Kafka的数据到其他系统,相对于许多系统需要编写定制集成的代码,使用Kafka连接到系统去导入或导出数据更加简单。 Kafka Connect是包括在Kafka中一个工具,用来导入导出数据到Kafka。它是connectors的一个可扩展工具,其执行定制逻辑,用于与外部系统交互。本文介绍如何使用Kafka Connect做一些简单的连接器从一个文

kafka(2)--多节点

多节点集群只是比单节点集群多了一些代理实例,其他并没有什么太大的变化,本文以本机三个节点为例搭建kafka集群。 1. kafka程序准备 下载程序:wget http://mirror.bit.edu.cn/apache/kafka/0.10.2.0/kafka_2.11-0.10.2.0.tgz解压:tar -zxvf kafka_2.11-0.10.2.0.tgzcd kafka

kafka(1)--单节点

本文描述 Linux 上搭建单节点kafka,以Centos7.2为例。 1. 准备kafka代码 wget http://mirror.bit.edu.cn/apache/kafka/0.10.2.0/kafka_2.11-0.10.2.0.tgz 解压压缩包: tar -zxvf kafka_2.11-0.10.2.0.tgz cd kafka_2.11-0.10.2.0 其中b

kafka基础知识

kafka架构 producer -> kafka cluster(broker>topic>partition) -> consumer -> zookeeper kafka压测 kafka-producer-perf-test.sh kafka-consumer-perf-test.sh kafka日志保存位置及消息保存时间 /tpdata/client/Kafka/kafka/confi

Kafka异常处理(消费者不消费数据)

问题 生产问题,OffsetMonitor 监控发现运行了一个月的kafka突然间消费有lag.而且消费端不消费数据 分析 在客户端写try..catch…捕获异常:  2017-08-27 09:47:48,103 ERROR [com.ecar.eoc.message.platform.kafka.Kafka211Context] - [kafka_Exception———

kafka consumer 配置详解

转载自:http://www.58maisui.com/2016/11/15/884/#coordinator 1、Consumer Group 与 topic 订阅 每个Consumer 进程都会划归到一个逻辑的Consumer Group中,逻辑的订阅者是Consumer Group。所以一条message可以被多个订阅message 所在的topic的每一个Consumer Gro

彻底删除Kafka中的topic(转)

转载自:http://blog.csdn.net/fengzheku/article/details/50585972  1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录 2、Kafka 删除topic的命令是:      ./bin/kafka-topics  --delete --

Kafka集群搭建详细步骤

Kafka集群搭建 1、 Kafka的安装需要java环境,cent os 7自带java1.6版本,可以不用重新安装,直接使用自带的jdk 即可;如果觉得jdk版本太旧,也可以自己重新安装; 2、 准备好kafka安装包,官网下载地址:  http://kafka.apache.org/downloads.html 3、 下载好kafka安装包后,将其解压到/usr/local目录

第5章 Kafka,构建TB级异步消息系统【仿牛客网社区论坛项目】

第5章 Kafka,构建TB级异步消息系统【仿牛客网社区论坛项目】 前言推荐项目总结第5章 Kafka,构建TB级异步消息系统1.阻塞队列2. Kafka入门3.Spring整合Kafka4.发送系统通知5.显示系统通知 最后 前言 2023-4-30 20:42:51 以下内容源自【Java面试项目】 仅供学习交流使用 推荐 仿牛客网项目【面试】 项目总结 第5章

如何收集项目日志统一发送到kafka中?

[img]https://img-blog.csdn.net/20170207190128849[/img] 上一篇([url]http://qindongliang.iteye.com/blog/2354381[/url] )写了收集sparkstreaming的日志进入kafka便于后续收集到es中快速统计分析,今天就再写一篇如何在普通应用程序实时收集日志,上一篇写的毕竟是分布式环境下的操作

如何收集SparkSteaming运行日志实时进入kafka中

用过sparkstreaming的人都知道,当使用sparkstreaming on yarn模式的时候,如果我们想查看系统运行的log,是没法直接看的,就算能看也只是一部分。 这里的log分: (1)spark本身运行的log (2)代码里面业务产生的log spark on yarn模式,如果你的hadoop集群有100台,那么意味着你的sparkstreaming的log有

SparkStreamingj集成Kafka的几个重要参数

sparkstreaming集成kafka时的maven的pom依赖: <dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-8_2.11</artifactId><version>0.8.2.1/version></dependency> 使用SparkStreaming集成k

如何管理Spark Streaming消费Kafka的偏移量(三)

前面的文章已经介绍了在spark streaming集成kafka时,如何处理其偏移量的问题,由于spark streaming自带的checkpoint弊端非常明显,所以一些对数据一致性要求比较高的项目里面,不建议采用其自带的checkpoint来做故障恢复。 在spark streaming1.3之后的版本支持direct kafka stream,这种策略更加完善,放弃了原来使用Kaf

关于kafka连接的一个小问题

最近有一个项目中用到了java api连接kafka的代码,原来测试的时候:bootstrap.servers这个值一直写的是ip,然后生产和消费数据都没有问题,但在预发测试的时候配合运维的需求,把ip要改成域名来访问,结果就启动就出问题了,启动不起来,抛出的异常如下: DNS resolution failed for url in ....... 我们的kafka的版本是apache

如何管理Spark Streaming消费Kafka的偏移量(二)

上篇文章,讨论了在spark streaming中管理消费kafka的偏移量的方式,本篇就接着聊聊上次说升级失败的案例。 事情发生一个月前,由于当时我们想提高spark streaming程序的并行处理性能,于是需要增加kafka分区个数,,这里需要说下,在新版本spark streaming和kafka的集成中,按照官网的建议 spark streaming的executors的数量要和k

如何管理Spark Streaming消费Kafka的偏移量(一)

最近工作有点忙,所以更新文章频率低了点,在这里给大家说声抱歉,前面已经写过在spark streaming中管理offset,但当时只知道怎么用,并不是很了解为何要那样用,最近一段时间又抽空看了一个github开源程序自己管理offset的源码,基本已经理解透彻了,当然这里面还包含了由于理解不透彻导致升级失败的一个案例,这个在下篇文章会分享出来。本篇我们先从理论的角度聊聊在Spark Strea

kafka学习笔记04(小滴课堂)

Kafka的producer生产者发送到Broker分区策略讲解 Kafka核心API模块-producer API讲解实战 代码:  ProducerRecord介绍和key的作用  Kafka核心API模块-producerAPI回调函数实战 producer生产者发送指定分区实战 我们设置5个分区。 我们指定分区。 重新指定

Windows 11 下 kafka 的安装踩坑

安装 windows系统kafka小白入门篇——下载安装,环境配置,入门代码书写(推荐) kafka在windows下安装和使用入门教程 问题1 参考链接 运行kafka集成的zookeeper时,命令:bin\windows\zookeeper-server-start.bat config\zookeeper.properties,出现报错: 输入行太长。命令语法不正确。

打印kafka最近的消息

使用 kafka-run-class 指令,获取topic的最小offset和最大offset #查看各个分区的最小offset(这个意思就是,这个offset之前的消息已经被清除了,现在consumer是从这个offset之后开始消费): ./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list localhost:9092

kafka管理工具 kafka-ui 的 k8s 部署

背景 实际使用中,部署好kafka集群后,需要管理集群,那么一个好的web控制台就显得尤为重要了。 直接上部署代码,亲测可用 开源链接 https://github.com/provectus/kafka-ui 效果预览 部署 配置文件 kafka-ui-cm 注意,如果是想管理多个 kafka 集群,则需要配置多个集群信息,并在配置文件中不同的索引号以示区分。例如

Kafka配置文件Server.properties文件的配置

要点 -基础配置 -安全配置 1 基础配置 主要配置参数有 broker.id=0port=9092localhost=127.0.0.1 内网地址advertised.host.name=阿里云外网映射地址delete.topic.enable=truelisteners = PLAINTEXT://your.host.name:9092log.dirs=/tmp/kafka-lo

阿里云构建Kafka单机集群环境

简介 在一台ECS阿里云服务器上构建Kafa单个集群环境需要如下的几个步骤: 服务器环境JDK的安装ZooKeeper的安装Kafka的安装 1. 服务器环境 CPU: 1核内存: 2048 MB (I/O优化) 1Mbps操作系统 ubuntu14.04 64位 感觉服务器性能还是很好的,当然不是给阿里打广告,汗。 随便向kafka里面发了点数据,性能图如下所示: 2. 安装