spark sql 从antlr的ast到Unresolved Logical Plan

2024-03-13 17:50

本文主要是介绍spark sql 从antlr的ast到Unresolved Logical Plan,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

spark sql 从antlr的ast到Unresolved Logical Plan
前提
  • 了解spark sql流程
  • 了解antlr,能看懂antlr的语法文件(*.g4),了解antlr访问者模式,安装idea antlr插件
准备

生成antlr语法树

  • 在idea中打开SqlBase.g4,这个是antlr规定的spark sql的sql语法.如果我们想看看某个关键字在spark sql 中怎么用,如果熟悉antlr的话,也可以到这个文件中查看.
  • 编写sql
/* 在插件中所有字母必需大写
fragment LETTER: [A-Z];*/
SELECT NAME,AGE FROM USER

image
image
spark 中编写相应的代码,方便调试

import org.apache.spark.sql.SparkSessionobject TestSql {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().config("spark.sql.shuffle.partitions", 5).master("local[*]").appName("us").getOrCreate()import spark._sql("SELECT NAME,AGE FROM USER").show()}}
  /** Creates LogicalPlan for a given SQL string. *///追踪代码,在这里把 sql转成了LogicalPlanoverride def parsePlan(sqlText: String): LogicalPlan = parse(sqlText) { parser =>astBuilder.visitSingleStatement(parser.singleStatement()) match {case plan: LogicalPlan => plancase _ =>val position = Origin(None, None)throw new ParseException(Option(sqlText), "Unsupported SQL statement", position, position)}}
  • 打开类
class AstBuilder(conf: SQLConf) extends SqlBaseBaseVisitor[AnyRef] with Logging

这个类extends 了antlr的SqlBaseBaseVisitor,SqlBaseBaseVisitor对所有的方法都有一个默认的实现,即访问子节点.所以AstBuilder并不需要重新实现全部的方法,只用实现关心的方法.

public class SqlBaseBaseVisitor<T> extends AbstractParseTreeVisitor<T> implements SqlBaseVisitor<T> {/*** {@inheritDoc}** <p>The default implementation returns the result of calling* {@link #visitChildren} on {@code ctx}.</p>*/@Override public T visitSingleStatement(SqlBaseParser.SingleStatementContext ctx) { return visitChildren(ctx); }
  • 开始分析
    结合上图生成的ast,第一个访问的节点是 singleStatement,ast中的
  /*第1步 singleStatement  语法树的起点*/override def visitSingleStatement(ctx: SingleStatementContext): LogicalPlan = withOrigin(ctx) {//visit 直接去访问子节点,由图可知下一个是statement:statementDefault(看冒号扣面的,给每个分支定义一个名称)visit(ctx.statement).asInstanceOf[LogicalPlan]}

visitStatementDefault没有实现,直接访问下一个节点

  /*** Create a top-level plan with Common Table Expressions.* query* : ctes? queryNoWith* 第2步* ;*/override def visitQuery(ctx: QueryContext): LogicalPlan = withOrigin(ctx) {//访问 queryNoWith节点val query = plan(ctx.queryNoWith)/*这个ctes不知道是干什么的,这条sql没有这个部分,我们可以查看sqlBase.g4关于ctes的定义ctes: WITH namedQuery (',' namedQuery)*;*/// Apply CTEsquery.optional(ctx.ctes) {val ctes = ctx.ctes.namedQuery.asScala.map { nCtx =>val namedQuery = visitNamedQuery(nCtx)(namedQuery.alias, namedQuery)}// Check for duplicate names.checkDuplicateKeys(ctes, ctx)With(query, ctes.toMap)}}

以此类推,我们就可以自己去追踪如何根据ast生成LogicalPlan

  /*** Create a logical plan for a regular (single-insert) query.* 创建一个logical计划,为一个常规的(简单查询)* 第3步*/override def visitSingleInsertQuery(ctx: SingleInsertQueryContext): LogicalPlan = withOrigin(ctx) {//访问queryTermDefault 没有实现,访问子节点plan(ctx.queryTerm).// Add organization statements.// 以with开头的方法添加信息到Logical planoptionalMap(ctx.queryOrganization)(withQueryResultClauses).// Add insert.optionalMap(ctx.insertInto())(withInsertInto)}/*** Create a logical plan using a query specification.* 用一个查询规范 创建一个 logical plan* 第4步  SELECT xxx from xxx where xxx having xxx  剔除了 sort by /order by /limit 等*/override def visitQuerySpecification(ctx: QuerySpecificationContext): LogicalPlan = withOrigin(ctx) {val from = OneRowRelation.optional(ctx.fromClause) {visitFromClause(ctx.fromClause)}withQuerySpecification(ctx, from)}

在了解了LogicalPlan,expression表达式后,再来继续.

这篇关于spark sql 从antlr的ast到Unresolved Logical Plan的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/805683

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

mysql8.0.43使用InnoDB Cluster配置主从复制

《mysql8.0.43使用InnoDBCluster配置主从复制》本文主要介绍了mysql8.0.43使用InnoDBCluster配置主从复制,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录1、配置Hosts解析(所有服务器都要执行)2、安装mysql shell(所有服务器都要执行)3、

k8s中实现mysql主备过程详解

《k8s中实现mysql主备过程详解》文章讲解了在K8s中使用StatefulSet部署MySQL主备架构,包含NFS安装、storageClass配置、MySQL部署及同步检查步骤,确保主备数据一致... 目录一、k8s中实现mysql主备1.1 环境信息1.2 部署nfs-provisioner1.2.

MySQL中VARCHAR和TEXT的区别小结

《MySQL中VARCHAR和TEXT的区别小结》MySQL中VARCHAR和TEXT用于存储字符串,VARCHAR可变长度存储在行内,适合短文本;TEXT存储在溢出页,适合大文本,下面就来具体的了解... 目录一、VARCHAR 和 TEXT 基本介绍1. VARCHAR2. TEXT二、VARCHAR

MySQL中C接口的实现

《MySQL中C接口的实现》本节内容介绍使用C/C++访问数据库,包括对数据库的增删查改操作,主要是学习一些接口的调用,具有一定的参考价值,感兴趣的可以了解一下... 目录准备mysql库使用mysql库编译文件官方API文档对象的创建和关闭链接数据库下达sql指令select语句前言:本节内容介绍使用C/

mybatis直接执行完整sql及踩坑解决

《mybatis直接执行完整sql及踩坑解决》MyBatis可通过select标签执行动态SQL,DQL用ListLinkedHashMap接收结果,DML用int处理,注意防御SQL注入,优先使用#... 目录myBATiFBNZQs直接执行完整sql及踩坑select语句采用count、insert、u

MySQL之搜索引擎使用解读

《MySQL之搜索引擎使用解读》MySQL存储引擎是数据存储和管理的核心组件,不同引擎(如InnoDB、MyISAM)采用不同机制,InnoDB支持事务与行锁,适合高并发场景;MyISAM不支持事务,... 目录mysql的存储引擎是什么MySQL存储引擎的功能MySQL的存储引擎的分类查看存储引擎1.命令

一文详解MySQL索引(六张图彻底搞懂)

《一文详解MySQL索引(六张图彻底搞懂)》MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度,:本文主要介绍MySQL索引的相关资料,文中通过代码介绍的... 目录一、什么是索引?为什么需要索引?二、索引该用哪种数据结构?1. 哈希表2. 跳表3. 二叉排序树4.

MySQL批量替换数据库字符集的实用方法(附详细代码)

《MySQL批量替换数据库字符集的实用方法(附详细代码)》当需要修改数据库编码和字符集时,通常需要对其下属的所有表及表中所有字段进行修改,下面:本文主要介绍MySQL批量替换数据库字符集的实用方法... 目录前言为什么要批量修改字符集?整体脚本脚本逻辑解析1. 设置目标参数2. 生成修改表默认字符集的语句3