Flink基础之DataStream API

2023-12-07 10:20
文章标签 基础 api flink datastream

本文主要是介绍Flink基础之DataStream API,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

流的合并

  1. union联合:被unioin的流中的数据类型必须一致
  2. connect连接:合并的两条流的数据类型可以不一致
    • connec后,得到的是ConnectedStreams
    • 合并后需要根据数据流是否经过keyby分区
      • coConnect: 将两条数据流合并为同一数据类型
      • keyedConnect
public class Flink09_UnionConnectStream {public static void main(String[] args) {//1.创建运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//默认是最大并行度env.setParallelism(1);DataStreamSource<Integer> ds1 = env.fromElements(1, 2, 3, 4, 5, 6, 7);DataStreamSource<Integer> ds2 = env.fromElements(8, 9);DataStreamSource<String> ds3 = env.fromElements("a", "b", "c");DataStream<Integer> unionDs = ds1.union(ds2);unionDs.print();//connectConnectedStreams<Integer, String> connectDs = ds1.connect(ds3);//处理connectDs.process(new CoProcessFunction<Integer, String, String>() {@Overridepublic void processElement1(Integer value, CoProcessFunction<Integer, String, String>.Context ctx, Collector<String> out) throws Exception {out.collect(value.toString());}@Overridepublic void processElement2(String value, CoProcessFunction<Integer, String, String>.Context ctx, Collector<String> out) throws Exception {out.collect(value.toUpperCase());}}).print("connect");try {env.execute();} catch (Exception e) {throw new RuntimeException(e);}}
}

Sink输出算子

目前所使用的大多数Sink, 都是基于2PC的方式来保证状态精确一次性。2PC 即 two face commit, 两阶段提交,该机制的实现必须要开启Flink的检查点。

  1. FileSink:fileSink = FileSink.<数据流泛型>forRowFormat(输出路径, 数据流编码器)
    • 文件滚动策略 .withRollingPolicy().builder()
      • 文件多大滚动.withMaxPartSize(MemorySize.parse(“10m”))
      • 多长时间滚动一次 .withRolloverInterval(Duration.ofSeconds(10))
      • 多久不活跃滚动 .withInactivityInterval(Duration.ofSeconds(5))
    • 目录滚动策略:一般设置为按照天或者小时或者其他时间间隔
    • 文件输出配置:可以设置输出文件的前缀和后缀
public class Flink01_FileSink {public static void main(String[] args) {//1.创建运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.enableCheckpointing(2000);//默认是最大并行度env.setParallelism(1);DataStreamSource<Event> ds = Flink06_EventSource.getEventSource(env);//FileSinkFileSink<String> stringFileSink = FileSink.<String>forRowFormat(new Path("output"),new SimpleStringEncoder<>()).withRollingPolicy(//文件滚动策略DefaultRollingPolicy.builder().withMaxPartSize(MemorySize.parse("10m"))//文件多大滚动.withRolloverInterval(Duration.ofSeconds(10))//多久滚动.withInactivityInterval(Duration.ofSeconds(5))//多久不活跃滚动.build()).withBucketAssigner(//目录滚动策略new DateTimeBucketAssigner<>("yyyy-MM-dd HH-mm")).withBucketCheckInterval(1000L)//检查的间隔.withOutputFileConfig(OutputFileConfig.builder().withPartPrefix("atguigu").withPartSuffix(".log").build()).build();ds.map(JSON::toJSONString).sinkTo(stringFileSink);try {env.execute();} catch (Exception e) {throw new RuntimeException(e);}}
}
  1. Kafka Sink(重点)
    • 生产者对象:KafkaProducer
    • Kafka生产者分区策略:
      • 如果明确指定分区号,直接用
      • 如果没有指定分区号,但是Record中带了key,就按照key的hash值对分区数取余得到分区号
      • 如果没有指定相关分区号,使用粘性分区策略
    • 生产者相关配置
      • key.serializer : key的序列化器
      • value.serializer: value的序列化器
      • bootstrap.servers: 集群位置
      • retries: 重试次数
      • batch.size 批次大小
      • linger.ms 批次超时时间
      • acks 应答级别
      • transaction.id 事务ID
    • Shell中开启Kafka消费者的命令:kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
public class Flink02_KafkaSink {public static void main(String[] args) {//1.创建运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//默认是最大并行度env.setParallelism(1);//开启检查点env.enableCheckpointing(5000);DataStreamSource<Event> ds = Flink06_EventSource.getEventSource(env);//KafkaSinkKafkaSink<String> kafkaSink = KafkaSink.<String>builder().setBootstrapServers("hadoop102:9092,hadoop103:9092").setRecordSerializer(KafkaRecordSerializationSchema.<String>builder().setTopic("first").setValueSerializationSchema(new SimpleStringSchema()).build())//语义//AT_LEAST_ONCE:至少一次,表示数据可能重复,需要考虑去重操作//EXACTLY_ONCE:精确一次//kafka transaction timeout is larger than broker//kafka超时时间:1H//broker超时时间:15分钟//                .setDeliveryGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)//数据传输的保障.setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE)//数据传输的保障.setTransactionalIdPrefix("flink"+ RandomUtils.nextInt(0,100000))
//                .setProperty(ProducerConfig.RETRIES_CONFIG,"10").setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG,"600000").build();ds.map(JSON::toJSONString).sinkTo(kafkaSink);//写入到kafka 生产者//shell 消费者:kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic firsttry {env.execute();} catch (Exception e) {throw new RuntimeException(e);}}
}

为了在Shell中开启消费者更为便捷,这里写了一个小脚本,用来动态的设置主题并开启相应的Kafka消费者,脚本名称为kc.sh.

#!/bin/bash# 检查参数数量
if [ $# -lt 1 ]; thenecho "Usage: $0 <topic>"exit 1
fi# 从命令行参数获取主题
topic=$1# Kafka配置
bootstrap_server="hadoop102:9092"# 构建kafka-console-consumer命令
consumer_command="kafka-console-consumer.sh --bootstrap-server $bootstrap_server --topic $topic"# 打印消费命令
echo "Running Kafka Consumer for topic: $topic"
echo "Command: $consumer_command"# 执行消费命令
$consumer_command

这篇关于Flink基础之DataStream API的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/465500

相关文章

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

redis-sentinel基础概念及部署流程

《redis-sentinel基础概念及部署流程》RedisSentinel是Redis的高可用解决方案,通过监控主从节点、自动故障转移、通知机制及配置提供,实现集群故障恢复与服务持续可用,核心组件包... 目录一. 引言二. 核心功能三. 核心组件四. 故障转移流程五. 服务部署六. sentinel部署

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

Python用Flask封装API及调用详解

《Python用Flask封装API及调用详解》本文介绍Flask的优势(轻量、灵活、易扩展),对比GET/POST表单/JSON请求方式,涵盖错误处理、开发建议及生产环境部署注意事项... 目录一、Flask的优势一、基础设置二、GET请求方式服务端代码客户端调用三、POST表单方式服务端代码客户端调用四

MySQL数据类型与表操作全指南( 从基础到高级实践)

《MySQL数据类型与表操作全指南(从基础到高级实践)》本文详解MySQL数据类型分类(数值、日期/时间、字符串)及表操作(创建、修改、维护),涵盖优化技巧如数据类型选择、备份、分区,强调规范设计与... 目录mysql数据类型详解数值类型日期时间类型字符串类型表操作全解析创建表修改表结构添加列修改列删除列

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

SpringBoot结合Knife4j进行API分组授权管理配置详解

《SpringBoot结合Knife4j进行API分组授权管理配置详解》在现代的微服务架构中,API文档和授权管理是不可或缺的一部分,本文将介绍如何在SpringBoot应用中集成Knife4j,并进... 目录环境准备配置 Swagger配置 Swagger OpenAPI自定义 Swagger UI 底