SparkCore(9):Spark应用资源构成和启动配置信息三个位置

本文主要是介绍SparkCore(9):Spark应用资源构成和启动配置信息三个位置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、spark应用资源构成和执行过程

1.资源构成

一个spark应用是由:Driver + Executors组成,其中:
(1)Driver: SparkContext上下文的构建、RDD的构建、RDD的调度
(2)Executor:具体task执行的位置

    备注:一个application 可以包含多个jobs,一个job包含多个stage,一个stage包含多个task

2.各个模块作用

针对spark on yarn:

(1)client模式:
         driver(相当于client去申请): 负责applicationmaster的资源申请和任务调度
         applicationMaster:Executor中的资源申请
         Executor:Task执行
(2)cluster模式:
         dirver(ApplicationMaster): 资源申请和任务调度
         Executor:Task执行

3.具体概念

(1)Job

        由于调用了RDD的action类型的API,所以触发rdd对应的job提交到executors中执行

(2)Stage

        当RDD的DAG图进行提交之前,Driver中的SparkContext中的DAGScheduler会DAG进行划分,形成Stage;
        划分规则:从DAG图的最后往前推,直到遇到一个宽依赖的API,那么就形成一个Stage,继续直到第一个RDD。例如:reduceByKey这个宽依赖
        
        备注:Stage的执行是有依赖关系的,前一个Stage的数据结果是后一个Stage的数据的输入;只有上一个Stage中的所有task都执行完了下一个Stage才会执行
        
(3)Task:是Executor中执行的最小单位。从RDD的分布情况来讲,每个task实质上就是RDD的分区;
        查看RDD的分区:rdd.partitions,然后可以查看length,可以看到rdd的分区数量,就是task数量

scala>  rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).partitions
res2: Array[org.apache.spark.Partition] = rray(org.apache.spark.rdd.ShuffledRDDPartition@0)scala> res2.length
res3: Int = 1

二、spark应用配置信息

1. spark-defaults.conf

2. spark-submit脚本参数

    --name 给定job的名称(可以在代码中给定,也可以在这里给定)
    --master:给定运行spark应用的执行位置信息
    --conf:给定配置参数,可以有多个--conf
    --propertise-file:配置信息文件,默认在conf/spark-defaults.conf

例如:

date=`date +"%Y%m%d%H%M"`
/opt/modules/spark-2.1.0-bin-2.7.3/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class _0722rdd.Wordcount_product \
--driver-memory   1G \
--driver-cores 1 \
--executor-memory 1G \
--executor-cores 1 \
--num-executors 1 \
--conf spark.app.coalesce=1 \
/opt/datas/lib/scalaProjectMaven.jar

3.spark代码中通过SparkConf对象指定参数

//1.创建sparkContext上下文
val conf = new SparkConf()
//本地模式,* 会在运行期间检查当前环境下还剩下多少cpu核心,占满
.setMaster("local[*]") //设定运行位置【否则报错!】
.setAppName("idea_start_wc") //设置运行程序名称【否则报错!】

4.优先级:1 < 2 < 3

5.配置参数意义

【参考:http://spark.apache.org/docs/2.1.0/configuration.html#available-properties】

--master:给定运行spark应用的执行位置信息
--deploy-mode:给定driver在哪儿执行client:driver在执行spark-submit的那台机器上运行cluster:driver在集群中任选一台机器运行
--driver-memory MEM:指定driver运行的时候jvm的内存大小,默认1G,一般情况下要求比单个executor的内存要大
--executor-memory MEM:指定单个executor的内存大小,默认1G
--driver-cores NUM: 指定spark on standalone的时候,而且是cluster模式的请看看下,driver运行过程中使用的core数量,默认1
--supervise:当运行环境为standalone/mesos + cluster,如果driver运行失败,会重新自动进行恢复操作,client模式就不会
--total-executor-cores NUM :运行环境为standalone/mesos,给定应用需要的总的core的数目,默认所有
--executor-cores NUM:运行环境为standalon/yarn,给定应用运行过程中,每个executor包含的core数目,默认1个(yarn),默认all(standalone)
--driver-cores NUM:spark on yarn cluster, 给定driver运行需要多少个core,默认1个
--num-executors NUM: 申请多少个executor,默认2,其实这里的executor就是container容器

 

这篇关于SparkCore(9):Spark应用资源构成和启动配置信息三个位置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998300

相关文章

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

Redis Cluster模式配置

《RedisCluster模式配置》:本文主要介绍RedisCluster模式配置,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录分片 一、分片的本质与核心价值二、分片实现方案对比 ‌三、分片算法详解1. ‌范围分片(顺序分片)‌2. ‌哈希分片3. ‌虚

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

Nexus安装和启动的实现教程

《Nexus安装和启动的实现教程》:本文主要介绍Nexus安装和启动的实现教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Nexus下载二、Nexus安装和启动三、关闭Nexus总结一、Nexus下载官方下载链接:DownloadWindows系统根

Springboot3+将ID转为JSON字符串的详细配置方案

《Springboot3+将ID转为JSON字符串的详细配置方案》:本文主要介绍纯后端实现Long/BigIntegerID转为JSON字符串的详细配置方案,s基于SpringBoot3+和Spr... 目录1. 添加依赖2. 全局 Jackson 配置3. 精准控制(可选)4. OpenAPI (Spri

Java中实现线程的创建和启动的方法

《Java中实现线程的创建和启动的方法》在Java中,实现线程的创建和启动是两个不同但紧密相关的概念,理解为什么要启动线程(调用start()方法)而非直接调用run()方法,是掌握多线程编程的关键,... 目录1. 线程的生命周期2. start() vs run() 的本质区别3. 为什么必须通过 st

maven私服配置全过程

《maven私服配置全过程》:本文主要介绍maven私服配置全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录使用Nexus作为 公司maven私服maven 私服setttings配置maven项目 pom配置测试效果总结使用Nexus作为 公司maven私

Oracle修改端口号之后无法启动的解决方案

《Oracle修改端口号之后无法启动的解决方案》Oracle数据库更改端口后出现监听器无法启动的问题确实较为常见,但并非必然发生,这一问题通常源于​​配置错误或环境冲突​​,而非端口修改本身,以下是系... 目录一、问题根源分析​​​二、保姆级解决方案​​​​步骤1:修正监听器配置文件 (listener.

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地