Flink特异的迭代操作-bulkIteration

2023-10-09 03:18

本文主要是介绍Flink特异的迭代操作-bulkIteration,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

迭代算法在很多数据分析领域会用到,比如机器学习或者图计算。为了从大数据中抽取有用信息,这个时候往往会需要在处理的过程中用到迭代计算。大数据处理框架很多,比如sparkmr。实际上这些实现迭代计算都是很困难的。

Flink神奇之处就是它直接支持迭代计算。Flink实现迭代的思路也是很简单,就是实现一个step函数,然后将其嵌入到迭代算子中去。有两种迭代操作算子:IterateDelta Iterate。两个操作算子都是在未收到终止迭代信号之前一直调用step函数。

本小节是主要是讲解理论。

迭代操作算子包括了简单的迭代形式:每次迭代,step函数会消费全量数据(本次输入和上次迭代的结果),然后计算得到下轮迭代的输出(例如,mapreducejoin)

1.迭代输入(Iteration Input)

第一次迭代的初始输入,可能来源于数据源或者先前的操作算子。

2. Step函数

每次迭代都会执行step函数。其是由mapreducejoin等算子组成的数据流,根据业务定制的。

3. 下次迭代的部分结果(Next Partial Solution):

每次迭代,step函数的输出结果会有部分返回参与继续迭代。

4. 最大迭代次数

如果没有其他终止条件,就会在聚合次数达到该值的情况下终止。

5. 自定义聚合器收敛:

迭代允许指定自定义聚合器和收敛标准,如sum会聚合要发出的记录数(聚合器),如果此数字为零则终止(收敛标准)。

案例:累加计数

这个例子主要是给定数据输入,每次增加一,输出结果。

640?wx_fmt=png


  1. 迭代输入:输入是1-5的数字。

  2. step函数:给数字加一操作。

  3. 部分结果:实际上就是一个map函数。

  4. 迭代结果:最大迭代次数是十次,所以最终输出是11-15.

640?wx_fmt=png

代码操作

编程的时候,本文说的这种迭代方式叫做bulk Iteration,需要调用iterate(int),该函数返回的是一个IterativeDataSet,当然我们可以对他进行一些操作,比如map等。Iterate函数唯一的参数是代表最大迭代次数。

迭代是一个环有前面的图可以看到,我们需要进行闭环操作,那么这时候就要用到closeWith(Dataset)操作了,参数就是需要循环迭代的dataset。也可以可选的指定一个终止标准,操作closeWith(DataSet, DataSet),可以通过判断第二个dataset是否为空,来终止迭代。如果不指定终止迭代条件,迭代就会在迭代了最大迭代次数后终止。

下面就是通过迭代计算pi的例子。

 

package Streaming.iteration;

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.IterativeDataSet;


public class IteratePi {

  public static voidmain(String[] args) throws Exception{
     final ExecutionEnvironmentenv = ExecutionEnvironment.getExecutionEnvironment();
     // Create initialIterativeDataSet
     IterativeDataSet<Integer> initial= env.fromElements(0).iterate(100);

     DataSet<Integer> iteration= initial.map(new MapFunction<Integer, Integer>(){
        @Override
        public Integermap(Integer i) throws Exception{
           double x = Math.random();
           double y = Math.random();

           return i + ((x * x + y * y < 1) ? 1 : 0);
        }
     });


     // Iterativelytransform the IterativeDataSet
     DataSet<Integer> count = initial.closeWith(iteration);

     count.map(new MapFunction<Integer, Double>(){
        @Override
        public Double map(Integercount) throws Exception {
           return count /(double) 10000 * 4;
        }
     }).print();

     // execute theprogram
     env.execute("IterativePi Example");
  }

}

推荐阅读:

调试flink源码

Flink异步IO第一讲

flink的神奇分流器-sideoutput

Structured Streaming VS Flink

更详细的flink内容分享,欢迎加入浪尖知识星球,与470人一起学习~

640?wx_fmt=jpeg

这篇关于Flink特异的迭代操作-bulkIteration的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169959

相关文章

Java集合之Iterator迭代器实现代码解析

《Java集合之Iterator迭代器实现代码解析》迭代器Iterator是Java集合框架中的一个核心接口,位于java.util包下,它定义了一种标准的元素访问机制,为各种集合类型提供了一种统一的... 目录一、什么是Iterator二、Iterator的核心方法三、基本使用示例四、Iterator的工

使用Java填充Word模板的操作指南

《使用Java填充Word模板的操作指南》本文介绍了Java填充Word模板的实现方法,包括文本、列表和复选框的填充,首先通过Word域功能设置模板变量,然后使用poi-tl、aspose-words... 目录前言一、设置word模板普通字段列表字段复选框二、代码1. 引入POM2. 模板放入项目3.代码

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面:本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求:文档详情:要求:该程序的功能是:总结需求:一次性处理24个文档的页码。文档详情:1、每个

Python内存管理机制之垃圾回收与引用计数操作全过程

《Python内存管理机制之垃圾回收与引用计数操作全过程》SQLAlchemy是Python中最流行的ORM(对象关系映射)框架之一,它提供了高效且灵活的数据库操作方式,本文将介绍如何使用SQLAlc... 目录安装核心概念连接数据库定义数据模型创建数据库表基本CRUD操作创建数据读取数据更新数据删除数据查

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

Java 字符串操作之contains 和 substring 方法最佳实践与常见问题

《Java字符串操作之contains和substring方法最佳实践与常见问题》本文给大家详细介绍Java字符串操作之contains和substring方法最佳实践与常见问题,本文结合实例... 目录一、contains 方法详解1. 方法定义与语法2. 底层实现原理3. 使用示例4. 注意事项二、su

Java Stream流与使用操作指南

《JavaStream流与使用操作指南》Stream不是数据结构,而是一种高级的数据处理工具,允许你以声明式的方式处理数据集合,类似于SQL语句操作数据库,本文给大家介绍JavaStream流与使用... 目录一、什么是stream流二、创建stream流1.单列集合创建stream流2.双列集合创建str

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中,SysMain服务(原名Superfetch)作为一个旨在提升系统性能的关键组件,一直备受用户关... 在使用 Windows 系统时,有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」,往往并不尽编