SparkCore（9）：Spark应用资源构成和启动配置信息三个位置

本文主要是介绍SparkCore（9）：Spark应用资源构成和启动配置信息三个位置，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、spark应用资源构成和执行过程

1.资源构成

一个spark应用是由：Driver + Executors组成，其中：
（1）Driver: SparkContext上下文的构建、RDD的构建、RDD的调度
（2）Executor：具体task执行的位置

备注：一个application 可以包含多个jobs，一个job包含多个stage，一个stage包含多个task

2.各个模块作用

针对spark on yarn：

（1）client模式:
       driver（相当于client去申请）: 负责applicationmaster的资源申请和任务调度
       applicationMaster：Executor中的资源申请
       Executor：Task执行
（2）cluster模式:
       dirver(ApplicationMaster): 资源申请和任务调度
       Executor：Task执行

3.具体概念

（1）Job

由于调用了RDD的action类型的API，所以触发rdd对应的job提交到executors中执行

（2）Stage

当RDD的DAG图进行提交之前，Driver中的SparkContext中的DAGScheduler会DAG进行划分，形成Stage；
       划分规则：从DAG图的最后往前推，直到遇到一个宽依赖的API，那么就形成一个Stage，继续直到第一个RDD。例如：reduceByKey这个宽依赖

       备注：Stage的执行是有依赖关系的，前一个Stage的数据结果是后一个Stage的数据的输入；只有上一个Stage中的所有task都执行完了下一个Stage才会执行

（3）Task：是Executor中执行的最小单位。从RDD的分布情况来讲，每个task实质上就是RDD的分区；
查看RDD的分区：rdd.partitions,然后可以查看length，可以看到rdd的分区数量，就是task数量

scala>  rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).partitions
res2: Array[org.apache.spark.Partition] = rray(org.apache.spark.rdd.ShuffledRDDPartition@0)scala> res2.length
res3: Int = 1

二、spark应用配置信息

1. spark-defaults.conf

2. spark-submit脚本参数

   --name 给定job的名称（可以在代码中给定，也可以在这里给定）
   --master：给定运行spark应用的执行位置信息
   --conf：给定配置参数，可以有多个--conf
   --propertise-file：配置信息文件，默认在conf/spark-defaults.conf

例如：

date=`date +"%Y%m%d%H%M"`
/opt/modules/spark-2.1.0-bin-2.7.3/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class _0722rdd.Wordcount_product \
--driver-memory   1G \
--driver-cores 1 \
--executor-memory 1G \
--executor-cores 1 \
--num-executors 1 \
--conf spark.app.coalesce=1 \
/opt/datas/lib/scalaProjectMaven.jar

3.spark代码中通过SparkConf对象指定参数

//1.创建sparkContext上下文
val conf = new SparkConf()
//本地模式，* 会在运行期间检查当前环境下还剩下多少cpu核心，占满
.setMaster("local[*]") //设定运行位置【否则报错！】
.setAppName("idea_start_wc") //设置运行程序名称【否则报错！】

4.优先级：1 < 2 < 3

5.配置参数意义

【参考：http://spark.apache.org/docs/2.1.0/configuration.html#available-properties】

--master：给定运行spark应用的执行位置信息
--deploy-mode：给定driver在哪儿执行client：driver在执行spark-submit的那台机器上运行cluster：driver在集群中任选一台机器运行
--driver-memory MEM：指定driver运行的时候jvm的内存大小，默认1G，一般情况下要求比单个executor的内存要大
--executor-memory MEM：指定单个executor的内存大小，默认1G
--driver-cores NUM: 指定spark on standalone的时候，而且是cluster模式的请看看下，driver运行过程中使用的core数量，默认1
--supervise:当运行环境为standalone/mesos + cluster，如果driver运行失败，会重新自动进行恢复操作,client模式就不会
--total-executor-cores NUM ：运行环境为standalone/mesos，给定应用需要的总的core的数目，默认所有
--executor-cores NUM：运行环境为standalon/yarn，给定应用运行过程中，每个executor包含的core数目，默认1个(yarn)，默认all(standalone)
--driver-cores NUM：spark on yarn cluster， 给定driver运行需要多少个core，默认1个
--num-executors NUM: 申请多少个executor，默认2，其实这里的executor就是container容器

这篇关于SparkCore（9）：Spark应用资源构成和启动配置信息三个位置的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！