Impala的分布式查询

2024-06-02 04:58
文章标签 查询 分布式 impala

本文主要是介绍Impala的分布式查询,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

http://blog.csdn.net/u011239443/article/details/51655483

翻译自《Getting Started with Impala》

 

分布式查询

  

        分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera Distribution with Hadoop (CDH)的Linux服务器集群。但在紧急情况下,有一个虚拟机的单独的笔记本电脑就能够进行开发和设计的工作。

  当一个Impala查询在一个Hadoop集群上运行时,Impala将工作分解成多个阶段,并且自动的将适当的请求发送给集群中对应的节点。这种自动分工就是为什么Impala能这么好适用于大数据应用案例的原因。当一个工作被4个,10个,100个或者更多的机器划分的时候,这些查询根据单机的容量而应变,形成一个单元来运行。分解工作和制定它在这么多的机器之间通信会产生一些开销。因此,有两个重点:1.为高效的查询处理组织好你的方案 2.帮助Impala估计特定的查询会涉及多少工作。

  每个分布式查询执行步骤如下(极大的简化了):

  1.Node #1,core #1:从你的本地磁盘的相关数据块中读取大数据文件的一部分。

  2.Node #1,core #2:读取相同文件的不同部分。每个请求像这样运行,使得一个节点有着该请求对应的数据块备份。多核意味着每个服务器有并行处理4,8,16甚至更多的数据块的潜力。

  3.Node #2 ,core #1:读取整个小的数据文件。该文件要足够小,以至于能适应单个HDFS块,这样一来你就能处理所有事情了。

  4.重复以上集群中所有数据节点和节点中的核的工作,增加每个节点的可用磁盘数量。保持运行,直到所有的相关HDFS数据块被处理完。

  5.假设:处理一个查询,只需要列X,Y和Z,并且产生一个结果集。那么,每个节点:忽略来自所有其它列的数据。(使用Parquet格式的表的话,这些被忽略的数据将不会被读取)这种操作就是所谓的投影(projection)

  6.每个节点:当你读取数据文件时,忽略所有不符合WHERE条款的行。这就是一个过滤(filtering)操作;在WHERE条款中的条件被称作为断言(predicates)

  7.每个节点:现在可以得到所保存的更加易于管理的数据量,在它上面进行求和,排序,分组,函数调用,或者其它操作。

  8.对表中的所有相关的数据文件运行这些步骤,直到所有需要的数据读取完毕,并且每个节点的每个核得出自己部分所对应的结果集。

  9.如果查询语句有LIMIT条款,那么结果集会更加被压缩。每个节点:假设你是一个寻找到“top N”结果的节点,并且只返回前N行的结果集。

  10.现在如果有一个JOIN或者UNION条框,每个节点传送必要的中间结果给其它节点来进行交叉检查,消除重复等等。对所有的JOIN和UNION条款重复以上步骤。

  11.当查询的所有阶段的中间结果都已经准备好了,就尽量把结果返回给任何首先初始化查询的节点。这个协调节点(coordinator node)进行必要的最终排序,分组和聚合。比如,只有当所有的中间结果可以相互比较的时候,才能最终裁定“top 10 visitors”。

  

  所有的并行处理对结果的特性具有以下的影响:

  • 任何写操作可能产生多个输出文件,每个节点以单独的文件作为返回的运行结果。
  • 哪个数据在哪个节点上处理事先并不确定。因此,在连续查询的时候,会存在一定程度的性能变化。
  • 通过后续查询而形成的特定排序,返回至磁盘上的结果是不可靠的。工作可能被分解到不同的节点上,或者节点会根据完成自己那部分的工作的速度,以不同的顺序返回中间结果。
  • 跨群集分配工作之前,每个查询的规划阶段会尽可能的计算出未知数。Impala会尽可能的把表达式转化为常量,而不是在每个节点上重新计算它们。当你调用时间相关的函数时,比如说 NOW(), 在查询开始的时候,那时候的时间会被捕获,并且所有节点上使用相同的值,而不会重新计算每个节点开始工作的精确时间。
  • 传送最终结果给协调节点所花的时间和结果集的大小成正比。因此,Impala的查询一般会避免大表的select * 操作,并且一般会包含多个WHERE条款,一个LIMIT条款或者聚合函数,来把结果压缩成相对小的体积,并且减少网络开销。


这篇关于Impala的分布式查询的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1023087

相关文章

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Oracle查询表结构建表语句索引等方式

《Oracle查询表结构建表语句索引等方式》使用USER_TAB_COLUMNS查询表结构可避免系统隐藏字段(如LISTUSER的CLOB与VARCHAR2同名字段),这些字段可能为dbms_lob.... 目录oracle查询表结构建表语句索引1.用“USER_TAB_COLUMNS”查询表结构2.用“a

解密SQL查询语句执行的过程

《解密SQL查询语句执行的过程》文章讲解了SQL语句的执行流程,涵盖解析、优化、执行三个核心阶段,并介绍执行计划查看方法EXPLAIN,同时提出性能优化技巧如合理使用索引、避免SELECT*、JOIN... 目录1. SQL语句的基本结构2. SQL语句的执行过程3. SQL语句的执行计划4. 常见的性能优

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Jenkins分布式集群配置方式

《Jenkins分布式集群配置方式》:本文主要介绍Jenkins分布式集群配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装jenkins2.配置集群总结Jenkins是一个开源项目,它提供了一个容易使用的持续集成系统,并且提供了大量的plugin满

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优