基于实际业务场景下的Flume部署

2024-09-06 20:38

本文主要是介绍基于实际业务场景下的Flume部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

暴走大数据

点击右侧关注,暴走大数据!

有这样一个场景,我们要基于某个web服务实时持续收集用户行为数据;
再实施方案前,我们做了以下的准备工作 (不细说)
  • web服务端部署nginx,用于收集用户行为并有形成log (172.17.111.111)

  • 我们数据平台是部署在Hadoop,数据最终固化到hdfs中 (172.22.222.17-19)

  • 数据平台和产生行为日志的机器最好同一个机房,网络环境要保持良好 (废话)

最终方案和技术选型
  • 采用flume服务收集日志

  • 收集的日志目的地统一为kafka

  • sparkstreaming消费kafka数据并固化到hdfs (hive或者kudu等等)

  • flume采用分布式部署结构
    -- 1.web端服务充当发送端
    -- 2.大数据平台的agent组成集群充当接受端
    -- 3.agent跟agent交互通过type=avro

部署flume服务
  • 还有一种方式就是在所在web工程引入flume的log4j代码,但这样会与原有代码冲突,改动大不考虑

  • 下载flume并解压 (web服务所在的机器 172.17.111.111)

#下载
wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz
#解压
tar -zxvf apache-flume-1.8.0-bin.tar.gz
#移到 /opt目录下
mv /home/apache-flume-1.8.0-bin /opt/flume-1.8.0
  • 修改配置文件

cd /opt/flume-1.8.0/conf
vi flume-conf.properties#添加以下内容
#命名agent各元素
agent.sources=source1
agent.channels=channel1#这里定义了三个sink,主要是为了把日志消息轮询发到这三个sink上面
#这三个sink分别又为大数据平台的flume agent
agent.sinks=sink1 sink2 sink3#source1描述
agent.sources.source1.type=exec
#agent来源, 即日志位置
agent.sources.source1.command=tail -F /usr/local/nginx/logs/dev-biwx.belle.net.cn.log
agent.sources.source1.channels=channel1#sink1描述, 用于被slave1(172.22.222.17) agent接受
agent.sinks.sink1.type=avro
agent.sinks.sink1.channel=channel1
agent.sinks.sink1.hostname=172.22.222.17
agent.sinks.sink1.port=10000
agent.sinks.sink1.connect-timeout=200000#sink2描述, 用于被slave2(172.22.222.18) agent接受
agent.sinks.sink2.type=avro
agent.sinks.sink2.channel=channel1
agent.sinks.sink2.hostname=172.22.222.18
agent.sinks.sink2.port=10000
agent.sinks.sink2.connect-timeout=200000#sink2描述, 用于被slave3(172.22.222.19) agent接受
agent.sinks.sink3.type=avro
agent.sinks.sink3.channel=channel1
agent.sinks.sink3.hostname=172.22.222.19
agent.sinks.sink3.port=10000
agent.sinks.sink3.connect-timeout=200000#定义sinkgroup,消息轮询发到这个组内的agent
agent.sinkgroups = g1
agent.sinkgroups.g1.sinks=sink1 sink2 sink3
agent.sinkgroups.g1.processor.type = load_balance
agent.sinkgroups.g1.processor.selector = round_robin#channel1描述
agent.channels.channel1.type = file
agent.channels.channel1.checkpointDir=/var/checkpoint
agent.channels.channel1.dataDirs=/var/tmp
agent.channels.channel1.capacity = 10000
agent.channels.channel1.transactionCapactiy = 100#绑定 source 和 sink 到channel中
agent.sources.source1.channels = channel1
agent.sinks.sink1.channel = channel1
agent.sinks.sink2.channel = channel1
agent.sinks.sink3.channel = channel1:wq!
  • 以上就是web端agent的配置,所有web节点配置都一样;暂时还不能启动,172.22.222.17-19端的agent还没启动;这时候启动会报错

  • 配置接收端agent配置 (基于CDH)

以上是基于CDH看到的 flume 服务实例,注意角色组要不一样

上述的配置文件都很简单,改一下ip和agent名字就好,以下为slave1例子

#Name the components on this agent
file2Kafka.sources = file2Kafka_source
file2Kafka.sinks = file2Kafka_sink
file2Kafka.channels = file2Kafka_channel# Describe/configure the source
file2Kafka.sources.file2Kafka_source.type = avro
file2Kafka.sources.file2Kafka_source.bind = 172.22.222.17
file2Kafka.sources.file2Kafka_source.port= 10000# Describe the sink, 目的地是kafka,注意主题为testnginx
file2Kafka.sinks.file2Kafka_sink.type = org.apache.flume.sink.kafka.KafkaSink
file2Kafka.sinks.file2Kafka_sink.kafka.topic = testnginx
file2Kafka.sinks.file2Kafka_sink.kafka.bootstrap.servers = 172.22.222.17:9092,172.22.222.18:9092,172.22.222.20:9092
file2Kafka.sinks.file2Kafka_sink.kafka.flumeBatchSize = 20# Use a channel which buffers events in memory
file2Kafka.channels.file2Kafka_channel.type = memory
file2Kafka.channels.file2Kafka_channel.capacity =100000
file2Kafka.channels.file2Kafka_channel.dataDirs=10000# Bind the source and sink to the channel
file2Kafka.sources.file2Kafka_source.channels = file2Kafka_channel
file2Kafka.sources.file2Kafka_source2.channels = file2Kafka_channel
file2Kafka.sources.file2Kafka_source3.channels = file2Kafka_channel
file2Kafka.sinks.file2Kafka_sink.channel = file2Kafka_channel
  • 配置好,CDH启动flume服务,务必进入每个agent节点的日志目录查看日志,就算某个agent节点报错,CM界面也不会有提示

#以slave1为例子
cd /var/log/flume-ng
tailf flume-cmf-flume-AGENT-bi-slave1.log

假如是以下信息代表正常启动


启动正常后,启动web端agent

./flume-ng agent --conf ../conf -f ../conf/flume-conf.properties --name agent -Dflume.root.logger=INFO,console
  • web端agent和CDH端agent都启动成功后,我们开始测试下

  • 启动kafka模拟消费端

#在kafka所在broker机器中执行命令
./kafka-console-consumer.sh --bootstrap-server 172.22.222.20:9092,172.22.222.17:9092,172.22.222.18:9092 --topic testnginx --from-beginning
  • 在所在web服务前端页面操作


这时候在kafka就能看到用户点击行为,也正是nginx记录的内容
不断点击,kafka模拟消费端就能不断看到消息进来。

欢迎点赞+收藏+转发朋友圈素质三连

文章不错?点个【在看】吧! ????

这篇关于基于实际业务场景下的Flume部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143062

相关文章

redis-sentinel基础概念及部署流程

《redis-sentinel基础概念及部署流程》RedisSentinel是Redis的高可用解决方案,通过监控主从节点、自动故障转移、通知机制及配置提供,实现集群故障恢复与服务持续可用,核心组件包... 目录一. 引言二. 核心功能三. 核心组件四. 故障转移流程五. 服务部署六. sentinel部署

Python中yield的用法和实际应用示例

《Python中yield的用法和实际应用示例》在Python中,yield关键字主要用于生成器函数(generatorfunctions)中,其目的是使函数能够像迭代器一样工作,即可以被遍历,但不会... 目录python中yield的用法详解一、引言二、yield的基本用法1、yield与生成器2、yi

Spring Security 前后端分离场景下的会话并发管理

《SpringSecurity前后端分离场景下的会话并发管理》本文介绍了在前后端分离架构下实现SpringSecurity会话并发管理的问题,传统Web开发中只需简单配置sessionManage... 目录背景分析传统 web 开发中的 sessionManagement 入口ConcurrentSess

99%的人都选错了! 路由器WiFi双频合一还是分开好的专业解析与适用场景探讨

《99%的人都选错了!路由器WiFi双频合一还是分开好的专业解析与适用场景探讨》关于双频路由器的“双频合一”与“分开使用”两种模式,用户往往存在诸多疑问,本文将从多个维度深入探讨这两种模式的优缺点,... 在如今“没有WiFi就等于与世隔绝”的时代,越来越多家庭、办公室都开始配置双频无线路由器。但你有没有注

Linux部署中的文件大小写问题的解决方案

《Linux部署中的文件大小写问题的解决方案》在本地开发环境(Windows/macOS)一切正常,但部署到Linux服务器后出现模块加载错误,核心原因是Linux文件系统严格区分大小写,所以本文给大... 目录问题背景解决方案配置要求问题背景在本地开发环境(Windows/MACOS)一切正常,但部署到

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使