【数据库学习】ClickHouse(ck）

本文主要是介绍【数据库学习】ClickHouse(ck），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1，ClickHouse（CK）

是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

1）特性

按列存储，列越多速度越慢；
按列存储，数据更容易压缩（类型相同、区分度）；==》每次读取的数据就更多，更少的io。
聚合性能高；
类sql操作；仅支持数据的查询、批量写入、批量删除。
用于磁盘查询，同时也利用SSD和内存
支持近似计算

2）常见的列式数据库有

Vertica、 Paraccel (Actian Matrix，Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise， Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

3）ck为什么快？

列式存储，数据类型相同，值范围也可能小（稀疏索引），更容易压缩，压缩之后每次io读取数据更多，降低了io。
可以把更多的数据放入内存。
在ck中，数据保存在不同的shard上，每一个shard都由一组用于容错的replica组成，查询可以并行地在所有shard上进行处理。
向量引擎，更高效的使用cpu。

2，索引原理

1）主索引（Primary Indexes）建立：LSM树

数据批量入库；
索引文件组织：主键列 + 其它排序列升序
每个表都有一个数据文件(*.bin)用于存储索引
按稀疏矩阵压缩，存储在磁盘上。

Granule （颗粒、行组）
是ck进行数据处理的最小的不可分割数据集。
ck每次读取数据，不是读取单独的行，而是始终读取整个行组（Granule）。

在这里插入图片描述第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0，然后下一个8192行(它们的列值)属于颗粒1，以此类推。
每个颗粒对应主索引的一个条目。

2）索引查询

1>颗粒选择

通过主索引二分查找，选择可能包含匹配查询的行的颗粒。

2>定位颗粒

每个列的标记文件以偏移量的形式存储两个位置:

压缩块位置
包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。
解压数据的位置
颗粒在解压数据块中的位置。

3）二级索引（Skipping Indexes)

传统的关系数据库的二级索引并不适用与ck（或者列式存储数据库），因为磁盘上没有单独的行可以添加到索引中。

如果一级索引查询后基数过大，可以考虑建立二级索引；
如果二级索引没有太大作用，此时，可以考虑：

新建一个不同的主键的新表；
创建一个物化视图；
增加Projecttion

ck主要的二级索引类型有：minmax、set、Bloom Filter。

1>Minmax

存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组，它分别存储元组元素的每个成员的值)。

场景：标量、元组表达式
不适用于：数组、map数据类型

2>Set

这个集合包含块中的所有值。
场景：列值相对集中。每组颗粒中基数较低、但总体基数较高的列。

3>Bloom Filter Types（跳数索引）

允许对集合成员进行高效的是否存在测试，但代价是有轻微的误报，读取更多的块。
场景：列有较多离散值、主键和目标列具有很强的相关性。

4）MergeTree引擎

这篇关于【数据库学习】ClickHouse(ck）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【数据库学习】ClickHouse(ck）

1，ClickHouse（CK）

1）特性

2）常见的列式数据库有

3）ck为什么快？

2，索引原理

1）主索引（Primary Indexes）建立：LSM树

2）索引查询

1>颗粒选择

2>定位颗粒

3）二级索引（Skipping Indexes)

1>Minmax

2>Set

3>Bloom Filter Types（跳数索引）

4）MergeTree引擎

相关文章

Mysql数据库聚簇索引与非聚簇索引举例详解

MySQL数据库双机热备的配置方法详解

SpringBoot基于注解实现数据库字段回填的完整方案

使用Node.js和PostgreSQL构建数据库应用

Oracle数据库在windows系统上重启步骤

MySQL批量替换数据库字符集的实用方法(附详细代码)

Linux下MySQL数据库定时备份脚本与Crontab配置教学

如何通过try-catch判断数据库唯一键字段是否重复

Python与MySQL实现数据库实时同步的详细步骤

使用shardingsphere实现mysql数据库分片方式