一个简单例子更深入地理解BigQuery 的分区表

2023-12-24 23:44

本文主要是介绍一个简单例子更深入地理解BigQuery 的分区表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先本文不会讲得很系统, 可以理解为是1个练习, 从这个简单例子中, 我们会体会到分区表与非分区表的操作和效果的区别




准备测试数据

首先, 本人准备了一份csv file , 测试数据,

大概样子如下:
在这里插入图片描述




创建数据表并导入数据

我们首先基于这个csv file 去创建1个bq 的数据表

bigquery 是支持直接通过上传csv 去创建1个新的表的, 而这个表的schema 可以被autodetect, 甚至field type可以自动识别哦

命令:

bq load --autodetect --source_format=CSV DS2.supermarket_sales supermarket_sales.csv

这时表已经从创建好了, 我们检查下schema 和数据行数:

[gateman@manjaro-x13 chapter-01]$ bq show DS2.supermarket_sales
/home/gateman/devtools/google-cloud-sdk/platform/bq/bq.py:17: DeprecationWarning: 'pipes' is deprecated and slated for removal in Python 3.13import pipes
Table jason-hsbc:DS2.supermarket_salesLast modified                 Schema                 Total Rows   Total Bytes   Expiration   Time Partitioning   Clustered Fields   Total Logical Bytes   Total Physical Bytes   Labels  ----------------- ----------------------------------- ------------ ------------- ------------ ------------------- ------------------ --------------------- ---------------------- -------- 23 Dec 22:10:31   |- Invoice_ID: string               1000         149402                                                            149402                31765                          |- Branch: string                                                                                                                                                       |- City: string                                                                                                                                                         |- Customer_type: string                                                                                                                                                |- Gender: string                                                                                                                                                       |- Product_line: string                                                                                                                                                 |- Unit_price: float                                                                                                                                                    |- Quantity: integer                                                                                                                                                    |- Tax_5_: float                                                                                                                                                        |- Total: float                                                                                                                                                         |- Date: date                                                                                                                                                           |- Time: string                                                                                                                                                         |- Payment: string                                                                                                                                                      |- cogs: float                                                                                                                                                          |- gross_margin_percentage: float                                                                                                                                       |- gross_income: float                                                                                                                                                  |- Rating: float  

可以简单地看出, 新创建的表行数是1000 行, 而且某些字段的类型已经被自动识别为 date, integer or float.




使用sql 基于这张非分区表创建另2张分区表

supermarket_sales_p, 基于Date 列做分区, 每一天1个表分区

create table DS2.supermarket_sales_p 
PARTITION BY DATE
as 
SELECT Branch, City, Customer_type, Product_line, Unit_price, Quantity, Tax_5_, Total, Date, Time, Payment, gross_income
FROM DS2.supermarket_sales

没错, BQ 还支持用sql来创建分区表, 关键字就是 PARTITION BY DATE , 这里的DATE是列名。
我在上一篇文章已经讲过, 时间分区表,有4中类型, 分别是Hour, Day, Month, Year.
上面的sql 没有指定, 默认是按Day, 也就是每一天1个表分区!





supermarket_sales_p2, 基于Date 列做分区, 每11个表分区

create table DS2.supermarket_sales_p2 
PARTITION BY DATE_TRUNC(Date, MONTH)
as 
SELECT Branch, City, Customer_type, Product_line, Unit_price, Quantity, Tax_5_, Total, Date, Time, Payment, gross_income
FROM DS2.supermarket_sales

这里 PARTITION BY DATE 改成 PARTITION BY DATE_TRUNC(Date, MONTH)

注意, 新的两个分区表比起原表是精简了一些列的, 相当灵活
好, 创建好之后我们检查下表结构和行数

[gateman@manjaro-x13 chapter-01]$ bq show DS2.supermarket_sales_p
/home/gateman/devtools/google-cloud-sdk/platform/bq/bq.py:17: DeprecationWarning: 'pipes' is deprecated and slated for removal in Python 3.13import pipes
Table jason-hsbc:DS2.supermarket_sales_pLast modified             Schema            Total Rows   Total Bytes   Expiration   Time Partitioning   Clustered Fields   Total Logical Bytes   Total Physical Bytes   Labels  ----------------- -------------------------- ------------ ------------- ------------ ------------------- ------------------ --------------------- ---------------------- -------- 23 Dec 23:44:51   |- Branch: string          1000         105400                     DAY (field: Date)                      105400                343651                         |- City: string                                                                                                                                                |- Customer_type: string                                                                                                                                       |- Product_line: string                                                                                                                                        |- Unit_price: float                                                                                                                                           |- Quantity: integer                                                                                                                                           |- Tax_5_: float                                                                                                                                               |- Total: float                                                                                                                                                |- Date: date                                                                                                                                                  |- Time: string                                                                                                                                                |- Payment: string                                                                                                                                             |- gross_income: float                                                                                                                                         [gateman@manjaro-x13 chapter-01]$ bq show DS2.supermarket_sales_p2
/home/gateman/devtools/google-cloud-sdk/platform/bq/bq.py:17: DeprecationWarning: 'pipes' is deprecated and slated for removal in Python 3.13import pipes
Table jason-hsbc:DS2.supermarket_sales_p2Last modified             Schema            Total Rows   Total Bytes   Expiration    Time Partitioning    Clustered Fields   Total Logical Bytes   Total Physical Bytes   Labels  ----------------- -------------------------- ------------ ------------- ------------ --------------------- ------------------ --------------------- ---------------------- -------- 23 Dec 23:48:37   |- Branch: string          1000         105400                     MONTH (field: Date)                      105400                28942                          |- City: string                                                                                                                                                  |- Customer_type: string                                                                                                                                         |- Product_line: string                                                                                                                                          |- Unit_price: float                                                                                                                                             |- Quantity: integer                                                                                                                                             |- Tax_5_: float                                                                                                                                                 |- Total: float                                                                                                                                                  |- Date: date                                                                                                                                                    |- Time: string                                                                                                                                                  |- Payment: string                                                                                                                                               |- gross_income: float                                                                                                                                           [gateman@manjaro-x13 chapter-01]$ 

注意观察分区信息, 1个按Day 分区, 一个按月分区. 行数都是1000

继续查看分区信息

SELECT *
FROM DS2.INFORMATION_SCHEMA.PARTITIONS
where table_name = 'supermarket_sales_p'
order by partition_idtable_catalog|table_schema|table_name         |partition_id|total_rows|total_logical_bytes|total_billable_bytes|last_modified_time     |storage_tie
-------------+------------+-------------------+------------+----------+-------------------+--------------------+-----------------------+-----------
jason-hsbc   |DS2         |supermarket_sales_p|20190101    |        12|               1260|                1260|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190102    |         8|                840|                 840|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190103    |         8|                836|                 836|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190104    |         6|                633|                 633|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190105    |        12|               1285|                1285|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190106    |         9|                925|                 925|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190107    |         9|                953|                 953|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190108    |        18|               1908|                1908|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190109    |         8|                840|                 840|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190110    |         9|                950|                 950|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190111    |         8|                839|                 839|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190112    |        11|               1171|                1171|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190113    |        10|               1056|                1056|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190114    |        13|               1385|                1385|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190115    |        13|               1365|                1365|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190116    |        10|               1050|                1050|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190117    |        11|               1162|                1162|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190118    |         9|                943|                 943|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190119    |        16|               1694|                1694|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190120    |        10|               1046|                1046|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190121    |         8|                822|                 822|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190122    |         7|                733|                 733|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190123    |        17|               1779|                1779|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190124    |        13|               1364|                1364|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190125    |        17|               1777|                1777|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190126    |        17|               1785|                1785|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190127    |        14|               1467|                1467|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190128    |        14|               1493|                1493|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190129    |        12|               1261|                1261|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190130    |         9|                972|                 972|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190131    |        14|               1497|                1497|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190201    |         6|                635|                 635|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190202    |        14|               1466|                1466|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190203    |        14|               1456|                1456|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190204    |        11|               1158|                1158|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190205    |        12|               1255|                1255|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190206    |        13|               1390|                1390|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190207    |        20|               2115|                2115|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190208    |        12|               1257|                1257|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190209    |        13|               1360|                1360|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190210    |        11|               1159|                1159|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190211    |         8|                841|                 841|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190212    |         8|                839|                 839|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190213    |         8|                858|                 858|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190214    |         8|                839|                 839|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190215    |        19|               2017|                2017|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190216    |         8|                846|                 846|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190217    |        13|               1376|                1376|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190218    |         7|                728|                 728|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190219    |         9|                954|                 954|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190220    |        10|               1056|                1056|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190221    |         6|                619|                 619|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190222    |        11|               1161|                1161|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190223    |         8|                850|                 850|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190224    |         9|                951|                 951|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190225    |        16|               1687|                1687|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190226    |         9|                951|                 951|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190227    |        14|               1485|                1485|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190228    |         6|                629|                 629|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190301    |        10|               1064|                1064|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190302    |        18|               1916|                1916|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190303    |        14|               1489|                1489|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190304    |        12|               1228|                1228|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190305    |        17|               1800|                1800|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190306    |        11|               1166|                1166|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190307    |         9|                949|                 949|2023-12-23 23:44:51.313|ACTIVE     
jason-hsbc   |DS2         |supermarket_sales_p|20190308    |        11|               1164|                1164|2023-12-23 23:44:51.313|ACTIVE     
SELECT *
FROM DS2.INFORMATION_SCHEMA.PARTITIONS
where table_name = 'supermarket_sales_p2'
order by partition_idtable_catalog|table_schema|table_name          |partition_id|total_rows|total_logical_bytes|total_billable_bytes|last_modified_time     |storage_tier|
-------------+------------+--------------------+------------+----------+-------------------+--------------------+-----------------------+------------+
jason-hsbc   |DS2         |supermarket_sales_p2|201901      |       352|              37091|               37091|2023-12-23 23:48:37.508|ACTIVE      |
jason-hsbc   |DS2         |supermarket_sales_p2|201902      |       303|              31938|               31938|2023-12-23 23:48:37.508|ACTIVE      |
jason-hsbc   |DS2         |supermarket_sales_p2|201903      |       345|              36371|               36371|2023-12-23 23:48:37.508|ACTIVE      |

可以看出supermarket_sales_p 已经存在很多个表分区, 1天1个分区, 而supermarket_sales_p2 只有3个分区, 对应3个月份, 而且也可以知道每个分区到底有多少个数据行




先查询原表并观察

在这里插入图片描述
我们可以看出, 原表的数据量两为145.9KB

当我们尝试查询 select * from 原表 时, BQ 已经提示会process 145.9KB , 也就是全表的数据量, 这个没什么问题

在这里插入图片描述


当我们尝试只检索某些列(就是上面两张分区表的列)时, 发现will process的数据量减少了,变成了102.93KB 这个也可以理解, 毕竟我们不想要查询所有列嘛

在这里插入图片描述


然后我们加上Date 列的filter , 只查询2月份的数据
在这里插入图片描述
如上图, 见到还是提示 102.93KB will be processed, 没有变化啊, 再想想也可以理解, BQ并没有索引, 所以还是检索全表才会找出DATE 在2月份的数据!


结下来我们先在web ui 上禁用缓存, 保证每次查询都是从磁盘去获得数据

在这里插入图片描述

在其他场景如何禁用缓存? 参考下文
https://cloud.google.com/bigquery/docs/cached-results#bq


接下来我们按button Run 去执行这个sql去检索非分区表 从查询job 的信息来看, 的确处理了102 kb data

在这里插入图片描述


而且从另外两张图来看, 的确处理了1000数据, 即使只返回了300多行, 但是收费是按1000行来收的
在这里插入图片描述
在这里插入图片描述




查询按日分区表 supermarket_sales_p

当我们写入sql时, web ui 已经提示will processed 的数据只有30多kb了!
在这里插入图片描述
因为加上了Date 这个字段, 数据只会在2月份的多个表分区里查找, skip了2月份之外的其他表分区。


然后我们执行查询, 查看执行信息, 的确是30KB ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/29c18cd21a78450fbc42f30c7ca1eee3.png)
再查看执行计划图 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/2eeb23f9d8dc405aadc37ca5dea180dd.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/2bbc76e8b10f4d63a350e162a217d821.png) 的确只process了303 行数据

值得注意的是, Wait 和 Read的时间效果都增加了

因为BQ 后台里会有多个进程同时去查询多个表分区, 而且需要wait 来整合查询的数据, 这里数据量小(1000k), 分区表的效率不高, 但是当数据量变大, 分区表的性能优势就出来了。




查询按月分区表 supermarket_sales_p2

当我们写入sql时, web ui 已经同样提示will processed 的数据只有30多kb了!

在这里插入图片描述
这里的查询只会 在1个表分区里查找, 因为此表是按月分区的


再查看执行计划图 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/7d2101ebec6341eb867cfb2910341bef.png) 可以看出wait 只有1ms, 因为只有1个表分区查询嘛, 所以对这条sql来讲, 月分区效率更高

但是 日分区表会更灵活, 例如只查询 2月28 和 3月1号 的数据, 相信日分区表会有效率得多!

这篇关于一个简单例子更深入地理解BigQuery 的分区表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/533543

相关文章

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

MySQL分区表的具体使用

《MySQL分区表的具体使用》MySQL分区表通过规则将数据分至不同物理存储,提升管理与查询效率,本文主要介绍了MySQL分区表的具体使用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、分区的类型1. Range partition(范围分区)2. List partition(列表分区)3. H

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

深入解析 Java Future 类及代码示例

《深入解析JavaFuture类及代码示例》JavaFuture是java.util.concurrent包中用于表示异步计算结果的核心接口,下面给大家介绍JavaFuture类及实例代码,感兴... 目录一、Future 类概述二、核心工作机制代码示例执行流程2. 状态机模型3. 核心方法解析行为总结:三

C/C++ chrono简单使用场景示例详解

《C/C++chrono简单使用场景示例详解》:本文主要介绍C/C++chrono简单使用场景示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录chrono使用场景举例1 输出格式化字符串chrono使用场景China编程举例1 输出格式化字符串示

windows和Linux安装Jmeter与简单使用方式

《windows和Linux安装Jmeter与简单使用方式》:本文主要介绍windows和Linux安装Jmeter与简单使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录Windows和linux安装Jmeter与简单使用一、下载安装包二、JDK安装1.windows设