【MySQL·8.0·源码】subquery 子查询处理分析(一)

2024-01-23 17:12

本文主要是介绍【MySQL·8.0·源码】subquery 子查询处理分析(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

在 SQL 中,子查询属于 Nested Query 的一种形式,根据 Kim 的分类[1],Nested Query 即嵌套查询是一种 SQL-like 形式的查询语句嵌套在另一 SQL 中,SQL-like 的嵌套子句可以出现在 SELECT、FROM 和 WHERE 子句的任意位置。

在 MySQL 中,一般把出现在 WHERE 子句中的嵌套 SQL 称为 subquery(子查询),而出现在 FROM 子句的称为 derived table,因为出现在 WHERE 子句中,最终属于 boolean factor 的一部分,目的是为了进行 FILTER 过滤记录。而出现在 FROM 子句不同,其结果最终是需要以抽象成一张虚拟表,用以与其他表进行 JOIN 操作或者用于二次计算过滤使用。

subquery 出现在 WHERE 子句中,而谓词形式一般为 [Ri.ck op Q]:

Ri 表示为第 i 张 Relation,ck 表示第 k 列,op 表示运算操作符,Q 则表示一个 SQL-like 形式的子查询

op 可以是 scalar 标量比较运算符(=、!=、>、>=、<、<=)或者是 set 集合成员运算符(IS IN,IS NOT IN、EXISTS、NOT EXISTS、ANY、ALL、SOME)。
两者的区别在于 scalar 标量运算符的右操作数总是返回当行当列值,而 set 运算符右操作数则是一个集合。
例如:

  • scalar 子查询

    select * from t1 where c1 = (select max(c1) from t2 where c2 > 25);
    
  • 普通子查询

    select * from t1 where c1 in (select c1 from t2 where c2 > 25);
    

Rule-based 转换

前面在 【MySQL·8.0·源码】MySQL 的查询处理有介绍,SQL 在 Transform 阶段会根据规则进行尝试简化,在此之前,我们必须知道子查询有以下等效规则[2]:

  1. Exists 的转换
    WHERE EXISTS (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    WHERE 0 < (select count(<sel>) from <tbl> where <cond>)
    
  2. Not Exists 的转换
    WHERE NOT EXISTS (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    WHERE 0 = (select count(<sel>) from <tbl> where <cond>)
    
  3. ANY 和 ALL 的转换
  • < ANY
    < ANY (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    < (select MAX(<sel>) from <tbl> where <cond>)
    
  • > ANY
    > ANY (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    > (select MIN(<sel>) from <tbl> where <cond>)
    
  • < ALL
    < ALL (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    < (select MIN(<sel>) from <tbl> where <cond>)
    
  • > ALL
    > ALL (select <sel> from <tbl> where <cond>)
    
    可以被等效为
    > (select MAX(<sel>) from <tbl> where <cond>)
    

语法树形式

引言中介绍了子查询有以下形式:

select <selitems> from Ri where Ri.ck op <Q>

在 【MySQL·8.0·源码】MySQL 语法树基础知识 中有介绍,在 MySQL 中,<SELECT><WHERE> 子句都是使用 Item 来表示各个 expression 表达式的。
对于子查询也不例外,MySQL 通过使用一个 Item_subselect 的基类引申不同类型的子查询:
Item_subselect 基类的继承关系有:

Item_subselect
+--Item_singlerow_subselect+--Item_maxmin_subselect
+--Item_exists_subselect+--Item_in_subselect+--Item_allany_subselect

其中:

  • Item_singlerow_subselect 对应的是 SCALAR 子查询或者单行的子查询
  • Item_exists_subselect 对应的是 [NOT] EXISTS 的子查询
  • Item_in_subselect 对应的是 [NOT] IN 子查询
  • Item_allany_subselect 对应 <op> ALL 或者 <op> ANY 形式的子查询

引言中提到,子查询是 Nested Query 的一种形式,在【MySQL·8.0·源码】MySQL 语法树结构 中有介绍过形如另外几种形式的嵌套查询:

  • 括号嵌套查询
select * from t3, (t1, t2) where t1.c1 = t2.c2;
  • 外连接嵌套查询
select * from t1 left outer join(t2, t3) on t1.c1 = t2.c1 and t1.c2 = t3.c2 where t1.c1 = t2.c2;

它们两的语法结构形式可以回顾【MySQL·8.0·源码】MySQL 语法树结构 。

同理,子查询作为另外一种嵌套查询,在 MySQL 中也是以相同的形式进行组织,而且子查询的 WHERE 子句上也使用形如 Item_xxx_subselect 代替普通的 Item 来表示一个子查询,整体语法树结构大致为:

例如,形如一下的 IN 子查询

select * from t1 where c1 in (select c1 from t2 where c1 > 25);

在这里插入图片描述
左侧为 Parse 结束后的语法树结构,两个 Query_block 分别对应外表 t1 和子查询 t2,除了 Query_block 和 Query_expression 可以从 t1 查询找到 t2 查询外,外表 t1 还通过 where 子句 Item_in_subselect 可以找到内表子查询 Query_block(t2),两个 Query 分别都有各自的 select list,from,where 子句。

右侧为经过 Transform 转为 semi-join 之后的语法树逻辑,这时内表子查询 t2 已经被 pullout 或 Merge 到外表查询块上,而内表条件也被 merge 到外表 where 条件中,而 t1 与 t2 也称为了的一种 semi-join 形式的嵌套查询。

Scalar 子查询的处理

对于只需返回单一值的子查询,称为 Scalar 子查询
可以是 scalar 标量比较运算符(=、!=、>、>=、<、<=)和 > ALL、< ALL、> ANY、< ANY 及其拓展形式
子查询中使用聚合函数(SUM,AVG,MAX,MIN,COUNT)返回结果等
例如:

select * from t1 where c1 > (select max(c1) from t2 where c1 > 25);

Prepare

在外表查询块 Query_block::prepare 进行 resolve 时,会 resolve where 条件,尝试解析 where 条件上的 Item 列到
实际 table field 的各种引用关系,而外表查询块的 where 条件是一个子查询 item(Item_singlerow_subselect),所以
最终会尝通过 Item_singlerow_subselect::fix_fields 来解析子查询 item 到实际 field 的引用。

Item_singlerow_subselect::fix_fields()->Item_subselect::fix_fields()->query_expr()->prepare()

子查询右侧操作数实际上是一个查询 Query_block,所以 resolve 时,会进一步调用子查询 Query_block::prepare 来
进一步 resolve/transform 子查询块,直到最终实际上是引用到 max(t2.c1) field

Optimize

子查询块的 prepare 是通过外层查询块的 resolve where 子句触发的,而 optimize 则是挪到了实际 Execute 阶段,由于
scalar 子查询最终返回的是单行单列结果,所以对实际延迟到 Execute 做子查询的 optimize 没有任何影响

Execute

scalar 子查询的执行由外层查询块在 evaluate where 条件时触发,对 Item_in_select 进行 boolean factor 的校验时,
触发子查询的 optimize 和 Execute,单行单列结果存储在子查询的 <select>

Item_singlerow_subselect::val_xxx()->Item_subselect::exec()->query_expr()->optimize()
Item_singlerow_subselect::val_xxx()->Item_subselect::exec()->query_expr()->execute()

预告:下篇继续普通 set 集合运算 subquery 的处理分析

引用

  1. Kim W. On optimizing an SQL-like nested query[J]. ACM Transactions on Database Systems (TODS), 1982, 7(3): 443-469.
  2. Ganski R A, Wong H K T. Optimization of nested SQL queries revisited[J]. ACM SIGMOD Record, 1987, 16(3): 23-33.

这篇关于【MySQL·8.0·源码】subquery 子查询处理分析(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/636949

相关文章

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE