GlobalWindow和Evictor的常用组合使用

2023-11-25 16:30

本文主要是介绍GlobalWindow和Evictor的常用组合使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

在平时的flink开发中,一旦我们使用到GlobalWindow,那么肯定也就意味着会搭配Evictor以及Tigger一起使用,只有这样才能触发窗口处理函数并且窗口内的元素数量限定在特定的范围内

GlobalWindow和Evictor常见组合用法

先看一下具体的搭配的例子:

public class GlobalWindowJob {public static void main(String[] args) throws Exception {StreamExecutionEnvironment see = StreamExecutionEnvironment.getExecutionEnvironment();see.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);// see.getCheckpointConfig().enableUnalignedCheckpoints();DataStream<WikipediaEditEvent> edits = see.addSource(new RandomStringSource());KeyedStream<WikipediaEditEvent, String> keyedEdits = edits.keyBy(new KeySelector<WikipediaEditEvent, String>() {@Overridepublic String getKey(WikipediaEditEvent event) {return event.getUser();}});DataStream<String> result =keyedEdits.window(GlobalWindows.create()).trigger(CountTrigger.of(20)).evictor(CountEvictor.of(10)).process(new ProcessWindowFunction<WikipediaEditEvent, String, String, GlobalWindow>() {@Overridepublic void process(String s, Context context, Iterable<WikipediaEditEvent> elements,Collector<String> out) throws Exception {WikipediaEditEvent start = Iterables.getFirst(elements, null);WikipediaEditEvent end = Iterables.getLast(elements, null);int size = Iterables.size(elements);out.collect("key: " + s + " start: " + start.getTimestamp() + " end: "+ end.getTimestamp() + " size:" + size);}});result.print();see.execute();}
}

如上代码所示,我们分别使用到了GlobalWindow,Trigger,Evictor以及处理函数processFunction,下面我们大概看一下这几个在组件在flink开发中的作用.

1.GlobalWindow 特殊的全局Window分配器,此外还有基于时间属性的TimeWindow,它决定了元素应该要分配到哪个窗口中,此外,每个Window分配器默认都有一个对应的Trigger,GlobalWindow对应的默认Trigger是NoTrigger触发器,而TimeWindow对应的默认触发器Trigger是到点触发,如果代码中显示指定了窗口Trigger,那么窗口分配器的默认Trigger将会被覆盖

2.触发器Trigger,这个是决定了什么时候对窗口的元素进行计算或者清除窗口内容,返回值continue表示什么都不做,也就是不会触发窗口计算,也不会触发窗口内容清理,返回值fire表示触发窗口计算,当然触发窗口计算前后需要先经过Evictor过滤,返回值purge表示清除窗口包括窗口元素和所有的状态,窗口会一直占用flink的资源直到返回purge值.

3.淘汰器Evictor,当Trigger触发器返回fire后,在把集合元素交由processFunction处理之前或者之后,集合的元素会被交由Evictor进行过滤操作,此时Evictor可以决定窗口中哪些元素要被移除,哪些会被保留下来交由后面的处理函数来处理,如果不指定Evictor,窗口的所有元素都会提交到ProcessFunction中进行处理

4.ProcessFunction窗口处理函数处理收到的窗口元素(这些元素有可能已经经过了Evictor的过滤操作),进行计算并发送结果到下游算子,ReduceFuction,AggregateFunction都是常用的窗口处理函数

参考文献: https://blog.csdn.net/qq_37555071/article/details/122529271

这篇关于GlobalWindow和Evictor的常用组合使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/424127

相关文章

Spring Boot项目如何使用外部application.yml配置文件启动JAR包

《SpringBoot项目如何使用外部application.yml配置文件启动JAR包》文章介绍了SpringBoot项目通过指定外部application.yml配置文件启动JAR包的方法,包括... 目录Spring Boot项目中使用外部application.yml配置文件启动JAR包一、基本原理

gorm乐观锁使用小结

《gorm乐观锁使用小结》本文主要介绍了gorm乐观锁使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录前言grom乐观锁机制gorm乐观锁依赖安装gorm乐观锁使用创建一个user表插入数据版本号更新总结前言乐观锁,顾名

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

MySQL中DATE_FORMAT时间函数的使用小结

《MySQL中DATE_FORMAT时间函数的使用小结》本文主要介绍了MySQL中DATE_FORMAT时间函数的使用小结,用于格式化日期/时间字段,可提取年月、统计月份数据、精确到天,对大家的学习或... 目录前言DATE_FORMAT时间函数总结前言mysql可以使用DATE_FORMAT获取日期字段

Go语言使用sync.Mutex实现资源加锁

《Go语言使用sync.Mutex实现资源加锁》数据共享是一把双刃剑,Go语言为我们提供了sync.Mutex,一种最基础也是最常用的加锁方式,用于保证在任意时刻只有一个goroutine能访问共享... 目录一、什么是 Mutex二、为什么需要加锁三、实战案例:并发安全的计数器1. 未加锁示例(存在竞态)

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.

使用Redis快速实现共享Session登录的详细步骤

《使用Redis快速实现共享Session登录的详细步骤》在Web开发中,Session通常用于存储用户的会话信息,允许用户在多个页面之间保持登录状态,Redis是一个开源的高性能键值数据库,广泛用于... 目录前言实现原理:步骤:使用Redis实现共享Session登录1. 引入Redis依赖2. 配置R

使用Python的requests库调用API接口的详细步骤

《使用Python的requests库调用API接口的详细步骤》使用Python的requests库调用API接口是开发中最常用的方式之一,它简化了HTTP请求的处理流程,以下是详细步骤和实战示例,涵... 目录一、准备工作:安装 requests 库二、基本调用流程(以 RESTful API 为例)1.

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

Python yield与yield from的简单使用方式

《Pythonyield与yieldfrom的简单使用方式》生成器通过yield定义,可在处理I/O时暂停执行并返回部分结果,待其他任务完成后继续,yieldfrom用于将一个生成器的值传递给另一... 目录python yield与yield from的使用代码结构总结Python yield与yield