SparkSQL入门(4)

2024-05-13 13:08
文章标签 入门 sparksql

本文主要是介绍SparkSQL入门(4),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

无论是SQL AST,DataFrame还会Dataset都是按照这个流程来执行的

Unresolved Logical Plan 先生成一个纯粹的逻辑计划,这个时候还没和实际上的数据有任何的交互
Logical Plan 这个时候和数据交互后得到一个实际的逻辑执行计划
Optimized Plan 因为上一步已经和数据进行一定的交互,引擎可以在这个基础上进行一定的优化
Physical Plans 在逻辑执行生成的结果上引擎将这个计划落实到多个物理执行计划了
Costed Model 通过Catalyst优化器惊醒评估,在一堆的物理执行计划当中挑选一个对机器成本最低的一个
RDD 生成代码并最终执行
Catalyst工作原理
在SparkSQL中,catalyst的执行过程就是有逻辑执行计划到最终RDD生成的这一部分。我们以一段最简单的SQL语句来看看过程是怎样的

select sum(v)
from (
  select
  t1.id,
  1 + 2 + t1.value as v
  from t1 join t2
  where
     t1.id = t2.id and
     t2.id > 50 * 1000) tmp;

这是一段包括了连接,自查询和一定条件筛选的SQL语句,在这个过程当中我们看看catalyst是怎么工作的。

scan(t1) 和 scan(t2) 首先是执行扫描两个表
filter 定义过滤条件:t1.id = t2.id and t2.id > 50000
project 定义需要的字段:t1.id 1+2+t1.value as v
aggregate 聚合计算:sum(v)
如果执行这个过程引擎需要先将两个表的全量数据扫描出来,然后再将id相同的数据保留下来(这个过程设计到join,我们将在下面深入join的执行过程),然后对得到的临时表的value字段进行+1+2的执行过程,最后在此基础上对v字段进行聚合计算。
而Catalyst优化器将会对这个逻辑执行计划进行优化,比如:谓词下压,常量值计算。
首先,将第2步的t2.id > 50000这个过程下压到scan(t2)这个过程,这样得到的两个表(t1和t2)的数据量将会减少,然后在执行join流程的过程时计算量也将大大减少。
接着,在得到一个临时字段的时候:1+2+t1.value as v的时候,这样的执行过程将会极大地增加cpu的计算量,我们都知道了其实就是3+t1.value了,但是引擎在执行的过程中还是会对每一条记录执行一次1+2=3的过程,所以可以直接将其优化成3+t1.value了。
另外,如果是两个大小表之间进行join的话,还可以从CommonJoin转化成MapJoin,就是使用broadcast计算将小表当成一个广播变量发送到各个executor上面去,将执行join。这样就可以避免了shuffle过程,也就是没有了reduce的部分了。
 

这篇关于SparkSQL入门(4)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/985791

相关文章

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

POI从入门到实战轻松完成EasyExcel使用及Excel导入导出功能

《POI从入门到实战轻松完成EasyExcel使用及Excel导入导出功能》ApachePOI是一个流行的Java库,用于处理MicrosoftOffice格式文件,提供丰富API来创建、读取和修改O... 目录前言:Apache POIEasyPoiEasyExcel一、EasyExcel1.1、核心特性

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al