Flink DataSet语义注解

2024-06-03 13:48
文章标签 注解 flink 语义 dataset

本文主要是介绍Flink DataSet语义注解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。
本节内容对应官方文档 ,本节内容对应示例源码

语义注解可用于为 Flink 提供有关函数行为的提示。它们告诉系统函数读取和评估函数输入的哪些字段,以及未修改的函数将哪些字段从其输入转发到输出。
语义注解是加快执行速度的强大方法,因为它们使系统能够推理出在多个操作之间重用排序顺序或分区。
使用语义注解最终可以使程序免于不必要的数据改组或不必要的排序,并显着提高程序的性能。

注意:语义注解的使用是可选的。但是,在提供语义注解时保守是绝对至关重要的!错误的语义注解将导致 Flink 对您的程序做出错误的假设,并最终可能导致错误的结果。如果操作员的行为无法明确预测,则不应提供注释。请仔细阅读文档。

1 转发字段注解

转发字段信息声明了输入字段,该字段未经修改就被函数转发到输出中的相同位置或另一个位置。
优化器使用此信息来推断函数是否保留了诸如排序或分区之类的数据属性。

使用字段表达式指定字段转发信息。可以通过其位置指定转发到输出中相同位置的字段。指定的位置必须对输入和输出数据类型有效,并且必须具有相同的类型。

转发规则语法

  • SingleInputUdfOperator(withForwardedFields) 语法:

    • dataUnix->_1 表示将 class 中 dataUnix 转发到 scala 元组的第一个位置
    • * 表示全部字段转发
    • *->_2 表示部字段转发到 scala 元组的第二个位置
  • TwoInputUdfOperator 语法:

    • withForwardFieldsFirst 函数的第一个输入规则定义,定义内容语法与 withForwardedFields 一致
    • withForwardedFieldsSecond 函数的第二个输入规则定义,定义内容语法与 withForwardedFields 一致
object ForwardedFields extends BatchExecutionEnvironmentApp {// 用户登录数据 DataSetval userLoginDs = DataSet.userLogin(this)val rolePayDs = DataSet.rolePay(this)userLoginDs.map(new MyForwardedFieldsMap()).withForwardedFields("dataUnix->_1", "uid->_2", "status->_3").map(o => o).withForwardedFields("*").map(o => (o._2, o)).withForwardedFields("_2->_1", "*->_2").join(rolePayDs).where(0).equalTo(_.uid).apply((o1, o2) => (o1._1, o1._2, o2.rid)).withForwardedFieldsFirst("_1->_1", "_2->_2").withForwardedFieldsSecond("rid->_3").print()
}/*** 自定义 map 实现函数,操作累加器示例* (Int, String, String) => (时间,用户 ID,用户登录状态)*/
class MyForwardedFieldsMap extends MapFunction[UserLogin, (Int, String, String)] {override def map(value: UserLogin): (Int, String, String) =(value.dataUnix, value.uid, value.status)
}

1.1 函数类注释

  • @ForwardedFields 用于诸如 Map 和 Reduce 的单一输入功能。
  • @ForwardedFieldsFirst 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • @ForwardedFieldsSecond 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

1.2 函数操作指定

  • data.map(myMapFnc).withForwardedFields() 用于单个输入功能,例如 Map 和 Reduce。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsFirst() 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsSecond() 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

2 非转发字段注解

声明了非转发字段,未声明的默认为转发字段

具有相反语义的声明方式与转发字段一致,且仅可通过注解方式声明

支持注解:

  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFields]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsFirst]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsSecond]]

3 Read Fields(读取字段注解)

读取字段信息声明所有由函数访问和评估的字段,即函数使用的所有字段来计算其结果。

例如,在指定读取字段信息时,必须将在条件语句中评估或用于计算的字段标记为已读。只有未经修改的字段转发到输出,而不评估其值或根本不被访问的字段不被视为被读取。

@ReadFields("_1; _4") // _1 and _4 2 个字段分别用于函数条件语句判断与结果计算.
class MyMap extends MapFunction[(Int, Int, Int, Int), (Int, Int)]{def map(value: (Int, Int, Int, Int)): (Int, Int) = {if (value._1 == 42) {return (value._1, value._2)} else {return (value._4 + 10, value._2)}}
}

这篇关于Flink DataSet语义注解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1027164

相关文章

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Spring的基础事务注解@Transactional作用解读

《Spring的基础事务注解@Transactional作用解读》文章介绍了Spring框架中的事务管理,核心注解@Transactional用于声明事务,支持传播机制、隔离级别等配置,结合@Tran... 目录一、事务管理基础1.1 Spring事务的核心注解1.2 注解属性详解1.3 实现原理二、事务事

Java JDK Validation 注解解析与使用方法验证

《JavaJDKValidation注解解析与使用方法验证》JakartaValidation提供了一种声明式、标准化的方式来验证Java对象,与框架无关,可以方便地集成到各种Java应用中,... 目录核心概念1. 主要注解基本约束注解其他常用注解2. 核心接口使用方法1. 基本使用添加依赖 (Maven

SpringBoot AspectJ切面配合自定义注解实现权限校验的示例详解

《SpringBootAspectJ切面配合自定义注解实现权限校验的示例详解》本文章介绍了如何通过创建自定义的权限校验注解,配合AspectJ切面拦截注解实现权限校验,本文结合实例代码给大家介绍的非... 目录1. 创建权限校验注解2. 创建ASPectJ切面拦截注解校验权限3. 用法示例A. 参考文章本文

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Java中使用 @Builder 注解的简单示例

《Java中使用@Builder注解的简单示例》@Builder简化构建但存在复杂性,需配合其他注解,导致可变性、抽象类型处理难题,链式编程非最佳实践,适合长期对象,避免与@Data混用,改用@G... 目录一、案例二、不足之处大多数同学使用 @Builder 无非就是为了链式编程,然而 @Builder

spring中的@MapperScan注解属性解析

《spring中的@MapperScan注解属性解析》@MapperScan是Spring集成MyBatis时自动扫描Mapper接口的注解,简化配置并支持多数据源,通过属性控制扫描路径和过滤条件,利... 目录一、核心功能与作用二、注解属性解析三、底层实现原理四、使用场景与最佳实践五、注意事项与常见问题六