Spark Streaming(二十五)初始化StreamingContext、初识DStream

本文主要是介绍Spark Streaming(二十五)初始化StreamingContext、初识DStream,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

初始化StreamingContext

初始化一个SparkStreaming程序,必须创建StreamingContext对象,因为它是SparkStreaming处理流式数据的入口。

 def main(args: Array[String]): Unit = {//初始化SparkConfval conf = new SparkConf().setMaster("local[2]").setAppName("Streamingtest")/*** 初始化StreamingContext,并设置2秒一次批处理* appName就是展示在SparkUI上应用的名称* master:就是Spark、Mesos、Yarn cluster Url,或者指定为"local[*]"运行在本地、实际应用程序运行在集群上,*         我们不应该将master硬编码在程序中,但是作为本地测试,你可以用"local[*]"这种方式,如果提交到集群上*         不要用这种方式,要按照实际的环境有外部传入该参数。*/val streaming = new StreamingContext(conf, Seconds(2))

一个StreamingContext对象也可以由已经存在的SparkContext进行创建

 def main(args: Array[String]): Unit = {//创建SparkConfval conf = new SparkConf().setAppName("").setMaster("local[2]")//创建SparkContextval sc = new SparkContext(conf)//由已经存在的SparkContext创建StreamingContextval streaming = new StreamingContext(sc, Seconds(2))}

SparkStreaming编码开发流程

StreamingContext创建完成以后,那么我们就会进行一下步骤,开始应用程序的开发

  • 定义一个输入源来创建DStream
  • 定义DStream的转换操作和输出操作
  • 开始等待数据的输入和处理streamingContext.start()
  • 等待正在处理的程序停止streamingContext.awaitTerminathion()
  • 通过stremingContext.stop()手动停止处理程序

SparkStreaming开发过程要注意的事项

  • 当一个StreamingContext已经启动了,就不能添加或者设置新的流式计算。也就是在streamingContext.start()的代码后边就不能再利用streamingContext创建新的流式计算。
  • StreamingContext停止后,就会无法启动。也就是说在streamingContext.stop()后边在此执行streamingContext.start()是无效的。
  • 在虚拟机中只能同时激活一个StreamingContext
  • StreamingContextstop方法,也会停止SparkContext,如果执行停止StreamingContext,只需要在stop方法内指定是否终止SparkContext,默认是true,需要指定为falsestreamingContext.stop(false)
  • 只要在创建下一个StreamingContext的时候停止前一个StreamingContext(不停止SparkContext),就可以重复利用SparkContext创建多个StreamingContext

离散流(DStream)

DStream(Discretized Stream)SparkStreaming提供的一种抽象。它是一种连续的数据流,它可以使从接收到的输入数据流 ,也可以是通过转换输入流后得到的数据流。数据流的内部就是一系列的RDDDStream中每个RDD都是特定时间间隔内的数据。操作数据流最终都会转换最底层的RDD上的操作。如图所示
在这里插入图片描述

这篇关于Spark Streaming(二十五)初始化StreamingContext、初识DStream的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753069

相关文章

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

C++类和对象之初始化列表的使用方式

《C++类和对象之初始化列表的使用方式》:本文主要介绍C++类和对象之初始化列表的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C++初始化列表详解:性能优化与正确实践什么是初始化列表?初始化列表的三大核心作用1. 性能优化:避免不必要的赋值操作2. 强

SpringIOC容器Bean初始化和销毁回调方式

《SpringIOC容器Bean初始化和销毁回调方式》:本文主要介绍SpringIOC容器Bean初始化和销毁回调方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录前言1.@Bean指定初始化和销毁方法2.实现接口3.使用jsR250总结前言Spring Bea

Spring实现Bean的初始化和销毁的方式

《Spring实现Bean的初始化和销毁的方式》:本文主要介绍Spring实现Bean的初始化和销毁的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Bean的初始化二、Bean的销毁总结在前面的章节当中介绍完毕了ApplicationContext,也就

Java数组初始化的五种方式

《Java数组初始化的五种方式》数组是Java中最基础且常用的数据结构之一,其初始化方式多样且各具特点,本文详细讲解Java数组初始化的五种方式,分析其适用场景、优劣势对比及注意事项,帮助避免常见陷阱... 目录1. 静态初始化:简洁但固定代码示例核心特点适用场景注意事项2. 动态初始化:灵活但需手动管理代

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

Spring组件初始化扩展点BeanPostProcessor的作用详解

《Spring组件初始化扩展点BeanPostProcessor的作用详解》本文通过实战案例和常见应用场景详细介绍了BeanPostProcessor的使用,并强调了其在Spring扩展中的重要性,感... 目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessB

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont