Flink DataSet语义注解

2024-06-03 13:48
文章标签 注解 flink 语义 dataset

本文主要是介绍Flink DataSet语义注解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。
本节内容对应官方文档 ,本节内容对应示例源码

语义注解可用于为 Flink 提供有关函数行为的提示。它们告诉系统函数读取和评估函数输入的哪些字段,以及未修改的函数将哪些字段从其输入转发到输出。
语义注解是加快执行速度的强大方法,因为它们使系统能够推理出在多个操作之间重用排序顺序或分区。
使用语义注解最终可以使程序免于不必要的数据改组或不必要的排序,并显着提高程序的性能。

注意:语义注解的使用是可选的。但是,在提供语义注解时保守是绝对至关重要的!错误的语义注解将导致 Flink 对您的程序做出错误的假设,并最终可能导致错误的结果。如果操作员的行为无法明确预测,则不应提供注释。请仔细阅读文档。

1 转发字段注解

转发字段信息声明了输入字段,该字段未经修改就被函数转发到输出中的相同位置或另一个位置。
优化器使用此信息来推断函数是否保留了诸如排序或分区之类的数据属性。

使用字段表达式指定字段转发信息。可以通过其位置指定转发到输出中相同位置的字段。指定的位置必须对输入和输出数据类型有效,并且必须具有相同的类型。

转发规则语法

  • SingleInputUdfOperator(withForwardedFields) 语法:

    • dataUnix->_1 表示将 class 中 dataUnix 转发到 scala 元组的第一个位置
    • * 表示全部字段转发
    • *->_2 表示部字段转发到 scala 元组的第二个位置
  • TwoInputUdfOperator 语法:

    • withForwardFieldsFirst 函数的第一个输入规则定义,定义内容语法与 withForwardedFields 一致
    • withForwardedFieldsSecond 函数的第二个输入规则定义,定义内容语法与 withForwardedFields 一致
object ForwardedFields extends BatchExecutionEnvironmentApp {// 用户登录数据 DataSetval userLoginDs = DataSet.userLogin(this)val rolePayDs = DataSet.rolePay(this)userLoginDs.map(new MyForwardedFieldsMap()).withForwardedFields("dataUnix->_1", "uid->_2", "status->_3").map(o => o).withForwardedFields("*").map(o => (o._2, o)).withForwardedFields("_2->_1", "*->_2").join(rolePayDs).where(0).equalTo(_.uid).apply((o1, o2) => (o1._1, o1._2, o2.rid)).withForwardedFieldsFirst("_1->_1", "_2->_2").withForwardedFieldsSecond("rid->_3").print()
}/*** 自定义 map 实现函数,操作累加器示例* (Int, String, String) => (时间,用户 ID,用户登录状态)*/
class MyForwardedFieldsMap extends MapFunction[UserLogin, (Int, String, String)] {override def map(value: UserLogin): (Int, String, String) =(value.dataUnix, value.uid, value.status)
}

1.1 函数类注释

  • @ForwardedFields 用于诸如 Map 和 Reduce 的单一输入功能。
  • @ForwardedFieldsFirst 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • @ForwardedFieldsSecond 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

1.2 函数操作指定

  • data.map(myMapFnc).withForwardedFields() 用于单个输入功能,例如 Map 和 Reduce。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsFirst() 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsSecond() 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

2 非转发字段注解

声明了非转发字段,未声明的默认为转发字段

具有相反语义的声明方式与转发字段一致,且仅可通过注解方式声明

支持注解:

  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFields]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsFirst]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsSecond]]

3 Read Fields(读取字段注解)

读取字段信息声明所有由函数访问和评估的字段,即函数使用的所有字段来计算其结果。

例如,在指定读取字段信息时,必须将在条件语句中评估或用于计算的字段标记为已读。只有未经修改的字段转发到输出,而不评估其值或根本不被访问的字段不被视为被读取。

@ReadFields("_1; _4") // _1 and _4 2 个字段分别用于函数条件语句判断与结果计算.
class MyMap extends MapFunction[(Int, Int, Int, Int), (Int, Int)]{def map(value: (Int, Int, Int, Int)): (Int, Int) = {if (value._1 == 42) {return (value._1, value._2)} else {return (value._4 + 10, value._2)}}
}

这篇关于Flink DataSet语义注解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1027164

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

Java Spring 中 @PostConstruct 注解使用原理及常见场景

《JavaSpring中@PostConstruct注解使用原理及常见场景》在JavaSpring中,@PostConstruct注解是一个非常实用的功能,它允许开发者在Spring容器完全初... 目录一、@PostConstruct 注解概述二、@PostConstruct 注解的基本使用2.1 基本代

Java中的@SneakyThrows注解用法详解

《Java中的@SneakyThrows注解用法详解》:本文主要介绍Java中的@SneakyThrows注解用法的相关资料,Lombok的@SneakyThrows注解简化了Java方法中的异常... 目录前言一、@SneakyThrows 简介1.1 什么是 Lombok?二、@SneakyThrows

SpringRetry重试机制之@Retryable注解与重试策略详解

《SpringRetry重试机制之@Retryable注解与重试策略详解》本文将详细介绍SpringRetry的重试机制,特别是@Retryable注解的使用及各种重试策略的配置,帮助开发者构建更加健... 目录引言一、SpringRetry基础知识二、启用SpringRetry三、@Retryable注解

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

SpringBoot条件注解核心作用与使用场景详解

《SpringBoot条件注解核心作用与使用场景详解》SpringBoot的条件注解为开发者提供了强大的动态配置能力,理解其原理和适用场景是构建灵活、可扩展应用的关键,本文将系统梳理所有常用的条件注... 目录引言一、条件注解的核心机制二、SpringBoot内置条件注解详解1、@ConditionalOn

SpringBoot利用@Validated注解优雅实现参数校验

《SpringBoot利用@Validated注解优雅实现参数校验》在开发Web应用时,用户输入的合法性校验是保障系统稳定性的基础,​SpringBoot的@Validated注解提供了一种更优雅的解... 目录​一、为什么需要参数校验二、Validated 的核心用法​1. 基础校验2. php分组校验3

Spring Security方法级安全控制@PreAuthorize注解的灵活运用小结

《SpringSecurity方法级安全控制@PreAuthorize注解的灵活运用小结》本文将带着大家讲解@PreAuthorize注解的核心原理、SpEL表达式机制,并通过的示例代码演示如... 目录1. 前言2. @PreAuthorize 注解简介3. @PreAuthorize 核心原理解析拦截与

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.