ProcessFunction:Flink最底层API使用踩坑记录

2024-09-06 20:58

本文主要是介绍ProcessFunction:Flink最底层API使用踩坑记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

暴走大数据

点击右侧关注,暴走大数据!

ProcessFunction和CoProcessFunction

说明

DataStream与KeyedStreamd都有Process方法,
DataStream接收的是ProcessFunction,而KeyedStream接收的是KeyedProcessFunction(原本也支持ProcessFunction,现在已被废弃)

0.AbstractRichFunction介绍

1.ProcessFunction对flink更精细的操作

<1> Events(流中的事件)
<2> State(容错,一致性,仅仅用于keyed stream)
<3> Timers(事件时间和处理时间,仅仅适用于keyed stream)

ProcessFunction可以视为是FlatMapFunction,但是它可以获取keyed state和timers。每次有事件流入processFunction算子就会触发处理。

为了容错,ProcessFunction可以使用RuntimeContext访问flink内部的keyed state。

timer允许应用程序对处理时间和事件时间的变化做出反应。每次有事件到达都会调用函数processElement(...),该函数有参数,也就是Context对象,该对象可以访问元素的事件时间戳和TimerService,还有侧输出。

TimerService可用于注册为后续处理事件或者事件时间的回调。当达到计时器的特定时间时,将调用onTimer(...)方法。在该调用期间,所有状态再次限定为创建计时器的key,允许计时器操纵keyed状态。

2.CoProcessFunction 实现底层join

<1> 实现底层join操作典型模板就是:

  1. 为一个或者两个输入创建一个状态对象

  2. 根据输入的事件更新状态

  3. 根据从另一个流接受的元素,更新状态并且产生joined结果


3.KeyedProcessFunction

keyedProcessFunction是ProcessFunction的扩展,可以在onTimer获取timer的key (通过context.getCurrentKey方法)

4.Timer类型

1.两种类型(事件时间和处理时间)的timer都是由TimerService维护并且以队列的形式执行。

TimerService会使用key和timestamp对timer进行去重,也即是对于每一对key和timestamp仅仅会存在一个timer。如果同一个timestamp注册了多个timers,onTimer()函数仅仅会调用一次。

对于onTimer()和processElement()方法flink是做了同步的,所以不需要关系并发问题。


5.ProcessFunction与状态的结合使用案例

WordCount,如果某一个key一分钟(事件时间)没有更新,就直接输出。
基本思路:
// 1.ValueState内部包含了计数、key和最后修改时间
// 2.对于每一个输入的记录,ProcessFunction都会增加计数,并且修改时间戳
// 3.该函数会在事件时间的后续1min调度回调函数
// 4.然后根据每次回调函数,就去检查回调事件时间戳和保存的时间戳,如果匹配就将数据发出

public class ProcessFunctionExample {// 1.ValueState内部包含了计数、key和最后修改时间// 2.对于每一个输入的记录,ProcessFunction都会增加计数,并且修改时间戳// 3.该函数会在事件时间的后续1min调度回调函数// 4.然后根据每次回调函数,就去检查回调事件时间戳和保存的时间戳,如果匹配就将数据发出private static class StreamDataSource extends RichParallelSourceFunction<Tuple3<String, Long, Long>> {private volatile boolean running = true;@Overridepublic void run(SourceContext<Tuple3<String, Long, Long>> sourceContext) throws Exception {Tuple3[] elements = new Tuple3[]{Tuple3.of("a", 1L, 1000000050000L),Tuple3.of("a", 1L, 1000000054000L),Tuple3.of("a", 1L, 1000000079900L),Tuple3.of("a", 1L, 1000000115000L),Tuple3.of("b", 1L, 1000000100000L),Tuple3.of("b", 1L, 1000000108000L)};int count = 0;while (running && count < elements.length) {sourceContext.collect(new Tuple3<>((String) elements[count].f0, (Long) elements[count].f1, (Long) elements[count].f2));count++;Thread.sleep(10000);}}@Overridepublic void cancel() {running = false;}}/*** 存储在状态中的对象*/public static class CountWithTimestamp {//单词public String key;//单词计数public long count;//最近更新时间public long lastModified;@Overridepublic String toString() {return "CountWithTimestamp{" +"key='" + key + '\'' +", count=" + count +", lastModified=" + new Date(lastModified) +'}';}}/*** ProcessFunction有两个泛型类,一个输入一个输出*/public static class CountWithTimeoutFunction extends ProcessFunction<Tuple2<String, Long>, Tuple2<String, Long>> {private ValueState<CountWithTimestamp> state;//最先调用@Overridepublic void open(Configuration parameters) throws Exception {//根据上下文获取状态state = getRuntimeContext().getState(new ValueStateDescriptor<CountWithTimestamp>("myState", CountWithTimestamp.class));}@Overridepublic void processElement(Tuple2<String, Long> input, Context context, Collector<Tuple2<String, Long>> output) throws Exception {CountWithTimestamp current = state.value();if (current == null) {current = new CountWithTimestamp();current.key = input.f0;}//更新ValueStatecurrent.count++;//这里面的context可以获取时间戳//todo 此时这里的时间戳可能为null,如果设置的时间为ProcessingTimecurrent.lastModified = context.timestamp();System.out.println("元素"+input.f0+"进入事件时间为:" + new Date(current.lastModified));state.update(current);//注册ProcessTimer,更新一次就会有一个ProcessTimercontext.timerService().registerEventTimeTimer(current.lastModified + 9000);System.out.println("定时触发时间为:"+new Date(current.lastModified + 9000));}//EventTimer被触发后产生的行为//todo 这里的timestamp是触发时间@Overridepublic void onTimer(long timestamp, OnTimerContext ctx, Collector<Tuple2<String, Long>> out) throws Exception {//获取上次时间,与参数中的timestamp相比,如果相差等于60s 就会输出CountWithTimestamp res = state.value();System.out.println("当前时间为:"+new Date(timestamp)+res);if (timestamp >= res.lastModified + 9000) {System.out.println("定时器被触发:"+"当前时间为"+new Date(timestamp)+" 最近修改时间为"+new Date(res.lastModified));out.collect(new Tuple2<String, Long>(res.key, res.count));}}}//执行主类public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();DataStream<Tuple2<String, Long>> data = env.addSource(new StreamDataSource()).setParallelism(1).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple3<String, Long, Long>>(Time.milliseconds(0)) {@Overridepublic long extractTimestamp(Tuple3<String, Long, Long> input) {return input.f2;}}).map(new MapFunction<Tuple3<String, Long, Long>, Tuple2<String, Long>>() {@Overridepublic Tuple2<String, Long> map(Tuple3<String, Long, Long> input) throws Exception {return new Tuple2<>(input.f0, input.f1);}});data.keyBy(0).process(new CountWithTimeoutFunction()).print();env.execute();}}

这一步的结果是:

发现共有四个OnTimer被执行,其中没有执行OnTimer的两条元素是

这两条消息定时器预计执行时间都超过了09:48:35,因为这个案例采用的是事件时间,而这六条元素最大的事件时间为09:48:35,所以默认到09:48:35就停止了

注意:看代码可以发现这里发送的元素之间是每隔10秒发送,因为以为会影响结果,实际是我们使用的是EventTime,所以OnTimer被执行的时间,是看事件时间。

如果将最大事件时间改一下,改成


结果就是除了他自身,其余onTimer全部被执行了,因为它的事件时间,超过了其余5个元素的定时器触发时间。

并且我们发现有一条消息满足了其中的条件。

这里有一个疑问就是:为什么a的所有最近修改时间都是09:48:45 ,a的最大事件时间????
分析可能是构造的数据源的原因。这里模拟的是将优先数据源作为无限数据源使用

解决问题:

一开始没有设置为EventTime,所以在处理的时候还是以Process Time来处理的。
改完之后的效果:

分析问题产生的原因:因为一开始未指定时间类型为EventTime,所以默认是以Process Time来处理,而一般来说使用ProcessTime,就不需要指定Watermark了(Watermark只是与EventTime配合使用),但是代码中偏偏还是使用了assign...方法,所以会在数据加载完了,使用最近的元素的时间,生成一个Watermark,这时候有了Watermark才会执行onTimer方法,所以才会出现数据全部加载完,才执行onTimer方法;

而当指定为EventTime时,来一个元素就会生成一个Watermark,当Watermark大于某个元素的触发时间,OnTimer就会执行,而不是等数据全部加载完之后才会生成

所以上面一开始对某些onTimer没有执行的理解是错误的,应该按照上面没有指定EventTime的方式去理解。

欢迎点赞+收藏+转发朋友圈素质三连

文章不错?点个【在看】吧! ????

这篇关于ProcessFunction:Flink最底层API使用踩坑记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143098

相关文章

SpringBoot中使用Flux实现流式返回的方法小结

《SpringBoot中使用Flux实现流式返回的方法小结》文章介绍流式返回(StreamingResponse)在SpringBoot中通过Flux实现,优势包括提升用户体验、降低内存消耗、支持长连... 目录背景流式返回的核心概念与优势1. 提升用户体验2. 降低内存消耗3. 支持长连接与实时通信在Sp

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

nginx启动命令和默认配置文件的使用

《nginx启动命令和默认配置文件的使用》:本文主要介绍nginx启动命令和默认配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录常见命令nginx.conf配置文件location匹配规则图片服务器总结常见命令# 默认配置文件启动./nginx

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

Windows下C++使用SQLitede的操作过程

《Windows下C++使用SQLitede的操作过程》本文介绍了Windows下C++使用SQLite的安装配置、CppSQLite库封装优势、核心功能(如数据库连接、事务管理)、跨平台支持及性能优... 目录Windows下C++使用SQLite1、安装2、代码示例CppSQLite:C++轻松操作SQ

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安