详解 Flink 的 ProcessFunction API

本文主要是介绍详解 Flink 的 ProcessFunction API，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、Flink 不同级别的 API

在这里插入图片描述

Flink 拥有易于使用的不同级别分层 API 使得它是一个非常易于开发的框架
最底层的 API 仅仅提供了有状态流处理，它将处理函数（Process Function ）嵌入到了 DataStream API 中。底层处理函数（Process Function）与 DataStream API 相集成，可以对某些操作进行抽象，允许用户可以使用自定义状态处理来自一个或多个数据流的事件，且状态具有一致性和容错保证。除此之外，用户可以注册事件时间并处理时间回调，从而使程序可以处理复杂的计算。
核心 API（Core APIs），比如 DataStream API （用于处理有界或无界流数据）以及 DataSet API （用于处理有界数据集）在实际生产中一般使用较多。这些 API 为数据处理提供了通用的构建模块，比如由用户定义的多种形式的转换（transformations）、连接（joins）、聚合（aggregations）、窗口（windows）操作等。
Table API 是以表为中心的声明式编程，其中表在表达流数据时会动态变化。 Table API 遵循关系模型：表有二维数据结构（schema）（类似于关系数据库中的表），同时 API 提供可比较的操作，例如 select、join、group-by、aggregate 等。
Flink 提供的最高层级的抽象是 SQL。这一层抽象在语法与表达能力上与 Table API 类似，但是是以 SQL 查询表达式的形式表现程序。SQL 抽象与 Table API 交互密切，同时 SQL 查询可以直接在 Table API 定义的表上执行。

二、ProcessFunction 介绍

相较于 map、filter 和 window 等特定的具体的操作而言，Flink 在底层 API 中提炼出一个统一通用的 process 操作，它是所有转换算子的一个概括性的表达，可以在对应的接口中自定义处理逻辑，而这一层接口就被叫作“处理函数”（ProcessFunction）
处理函数 (ProcessFunction) 提供了一个“定时服务”（TimerService），可以通过它访问流中的事件（event ）、时间戳（timestamp ）、水位线（watermark），甚至可以注册“定时事件”
处理函数 (ProcessFunction) 继承了 AbstractRichFunction 抽象类，所以拥有富函数类的所有特性，同样可以访问状态（state）和其他运行时信息
处理函数 (ProcessFunction) 可以直接将数据输出到侧输出流（side output）中
所以，处理函数 (ProcessFunction) 是最为灵活的处理方法，可以实现各种自定义的业务逻辑；同时也是整个 DataStream API 的底层基础

三、常见的 ProcessFunction 类

ProcessFunction：最基本的处理函数，基于 DataStream 直接调用 process() 时作为参数传入
KeyedProcessFunction：对流按键分区后的处理函数，基于 KeyedStream 调用 process() 时作为参数传入
CoProcessFunction：合并（connect）两条流之后的处理函数，基于 ConnectedStreams 调用 process() 时作为参数传入
ProcessJoinFunction：间隔连接（interval join）两条流之后的处理函数，基于 IntervalJoined 调用 process() 时作为参数传入
BroadcastProcessFunction：广播连接流处理函数，基于 BroadcastConnectedStream 调用 process() 时作为参数传入。“广播连接流” BroadcastConnectedStream，是一个未 keyBy 的普通 DataStream 与一个广播流（BroadcastStream）做连接（conncet）之后的产物
KeyedBroadcastProcessFunction：按键分区的广播连接流处理函数，基于 BroadcastConnectedStream 调用 process() 时作为参数传入。与 BroadcastProcessFunction 不同的是，这时的广播连接流，是一个 KeyedStream 与广播流（BroadcastStream）做连接之后的产物
ProcessWindowFunction：KeyedStream 开窗之后的处理函数，也是全窗口函数的代表。基于 WindowedStream 调用 process() 时作为参数传入
ProcessAllWindowFunction：DataStream 开窗之后的处理函数，基于 AllWindowedStream 调用 process() 时作为参数传入

四、ProcessFunction API 实战

1. KeyedProcessFunction

1.1 解析

public abstract class KeyedProcessFunction<K, I, O> extends AbstractRichFunction {//1.两个核心方法：//1.1 流中的每一个元素都会调用这个方法，调用结果将会放在 Collector 数据类型中输出。Context 可以访问元素的时间戳，元素的 key，以及 TimerService 时间服务。Context 还可以将结果输出到别的流(side outputs) public abstract void processElement(I value, Context ctx, Collector<O> out);//1.2 一个回调函数。当processElement中注册的定时器触发时调用。参数 timestamp 为定时器所设定的触发的时间戳。Collector 为输出结果的集合。OnTimerContext 和 processElement 的 Context 参数一样，提供了上下文的一些信息，例如定时器触发的时间信息(事件时间或者处理时间)public abstract void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out);//2.富函数的以下方法：open()/close()/getRuntimeContext()
}

1.2 ProcessFunction 的 Context

//Context的常用方法
context.timestamp(); //获取当前数据的时间戳
context.getCurrentKey(); //获取当前数据的 key
context.output(OutputTag<X> outputTag, X value); //输出侧输出流
context.timerService(); //获取 TimerService 对象

1.3 Timer 和 TimerService

ProcessFunction 的 Context 对象调用 timerService() 方法可以直接返回一个 TimerService 对象；定时器 Timer 只能在 KeyedStream 上面使用

//TimerService 是 Flink 关于时间和定时器的基础服务接口，包含以下六个方法：
//获取当前的处理时间
long currentProcessingTime();//获取当前的水位线（事件时间）
long currentWatermark();//注册处理时间定时器，当处理时间超过 time 时触发
void registerProcessingTimeTimer(long time);//注册事件时间定时器，当水位线超过 time 时触发
void registerEventTimeTimer(long time);//删除触发时间为 time 的处理时间定时器
void deleteProcessingTimeTimer(long time);//删除触发时间为 time 的处理时间定时器
void deleteEventTimeTimer(long time);

1.4 案例

需求：监控温度传感器的温度值，如果温度值在 10 秒钟之内 (processing time) 连续上升，则报警

public class ProcessFunctionCase {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);DataStream<String> inputStream = env.socketTextStream("localhost", 7777);DataStream<SensorReading> dataStream = inputStream.map(line -> {String[] fields = line.split(",");return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));});dataStream.keyBy("id").process(new TempContIncreWarning(10)).print();env.execute();}//自定义处理函数，用于监测一段时间内某个传感器温度值是否连续上升，输出报警信息public static class TempContIncreWarning extends KeyedProcessFunction<Tuple, SensorReading, String> {//定义私有属性：监测的时间间隔private Integer interval;public TempContIncreWarning(Integer interval) {this.interval = interval;}//定义两个值状态属性，分别保存上一次的温度值和定时器的时间戳private ValueState<Double> lastTempState;private ValueState<Long> timerTsState;@Overridepublic void open(Configuration parameters) throws Exception {lastTempState = getRuntimeContext().getState(new ValueStateDescriptor<Double>("last-temp", Double.class));timerTsState = getRuntimeContext().getState(new ValueStateDescriptor<Long>("timer-ts", Long.class));}@Overridepublic void processElement(SensorReading value, Context ctx, Collector<String> out) throws Exception {//获取状态值Double lastTemp = lastTempState.value();Long timerTs = timerTsState.value();//如果上一次的温度值为null或者上一次的温度值小于当前温度值并且定时器为null则注册定时器if(lastTemp == null || (lastTemp != null && value.getTemperature() > lastTemp && timerTs == null)) {Long ts = ctx.timerService().currentProcessingTime() + interval * 1000L;ctx.timerService().registerProcessingTimeTimer(ts);timerTsState.update(ts);} else if(value.getTemperature() < lastTemp && timerTs != null) {//如果上一次的温度值大于当前温度值且定时器不为null则删除定时器，清空定时器值状态ctx.timerService().deleteProcessingTimeTimer(timerTs);timerTsState.clear();}//更新温度值状态lastTempState.update(value.getTemperature());}@Overridepublic void onTimer(long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception {//定时器触发则输出报警信息out.collect("传感器" + ctx.getCurrentKey().getField(0) + "的温度在" + interval + "s内连续上升");timerTsState.clear();}@Overridepublic void close() throws Exception {lastTempState.clear();}}
}

2. 侧输出流

监控传感器温度值，将温度值低于 30 度的数据输出到 side output

/**核心方法：ProcessFunction中的 Context 对象的 output(OutputTag<X> outputTag, X value)
*/
public class SideOutputCase {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);DataStream<String> inputStream = env.socketTextStream("localhost", 7777);DataStream<SensorReading> dataStream = inputStream.map(line -> {String[] fields = line.split(",");return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));});//定义OutputTag，用来标记侧输出流的低温流OutputTag<SensorReading> lowTempTag = new OutputTag<SensorReading>("lowTemp"){};//DataStream不做keyBy，使用ProcessFunction的侧输出流进行高低温分流SingleOutputStreamOperator<SensorReading> highTempStream = dataStream.process(new ProcessFunction<SensorReading, SensorReading>(){@Overridepublic void processElement(SensorReading value, Context ctx, Collector<SensorReading> out) throws Exception {if(value.getTemperature() > 30) {//高温流，输出到主流out.collect(value);} else {//低温流，输出到侧输出流ctx.output(lowTempTag, value);}}});//高温流highTempStream.print("high-temp");//低温流highTempStream.getSideOutput(lowTempTag).print("low-temp");env.execute();}
}