Clickhouse中物化视图和位图和索引的用法

2024-05-08 20:52

本文主要是介绍Clickhouse中物化视图和位图和索引的用法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 聚合函数
  • 表引擎AggregatingMergeTree
  • 物化视图
  • 位图
  • Clickhouse实现数据的有限更新
  • 索引

聚合函数

例如 max(val) , argMax(arg,val)
如果在聚合函数后面加入后缀if,则是
maxIf(val,UInt8)
argMaxIf(arg,val,UInt8)
也就是当满足某个条件时候,才会对这一行数据进行函数处理。
例如:
字段:is_deleted AggregateFunction(argMaxIf, Int32, Int64, UInt8)
该字段插入数据:

insert into table A
slect 
argMaxIfState(is_deleted, event_behavior_timestamp, isNotNull(is_deleted)) AS is_deleted
from B

表引擎AggregatingMergeTree

该引擎继承自MergeTree,改变了数据部分合并的逻辑。ClickHouse将所有具有相同主键的行替换为存储聚合函数状态组合的单行。
您可以使用AggregatingMergeTree表进行增量数据聚合,包括聚合的物化视图。
使用该引擎的表中,除了主键外其余使用 AggregateFunction、SimpleAggregateFunction数据类型

AggregateFunction 是数据类型,第一个参数是使用的聚合函数名称,后面多个参数是聚合函数传入参数的类型。如果加入if后缀,则多出一个参数类型UInt8

聚合函数可以具有实现定义的中间状态,该状态可以序列化为AggregateFunction(…)数据类型,并通常通过物化视图存储在表中。生成聚合函数状态的常用方法是调用带有-State后缀的聚合函数。要在将来获得聚合的最终结果,必须使用带- mergessuffix的相同聚合函数。

CREATE TABLE test.agg_visits (StartDate DateTime64 NOT NULL,CounterID UInt64,Visits AggregateFunction(sum, Nullable(Int32)),Users AggregateFunction(uniq, Nullable(Int32))
)
ENGINE = AggregatingMergeTree() ORDER BY (StartDate, CounterID);

向表agg_visits 插入数据,根据group by进行聚合,聚合表存储聚合函数列的状态值,需要在对应的聚合函数上加入后缀State,例如sumState

insert into table test.agg_visits
SELECTStartDate,CounterID,sumState(Sign) AS Visits,uniqState(UserID) AS Users
FROM test.visits
GROUP BY StartDate, CounterID;

查看 test.agg_visits表数据,对应的聚合数据要儒后缀 Merge,例如sumMerge

SELECTStartDate,sumMerge(Visits) AS Visits,uniqMerge(Users) AS Users
FROM test.agg_visits
GROUP BY StartDate
ORDER BY StartDate;
-- 因为存储的是聚合函数的中间状态,所以不加group by的时候,是全局聚合。当插入数据的时候,存储的是以StartDate, CounterID分组下聚合函数的状态值,在查询的时候使用group by StartDate,则会对聚合函数状态下的值进行按照StartDate分组进行聚合函数。
-- 如果查询时使用group by StartDate,CounterID,aa 那么查出的时候也是按照StartDate,CounterID分组的,而不是StartDate,CounterID,aa。
-- 因为聚合表在建表的时候已经决定了存储主键相同下的聚合函数的中间状态值
SELECTsumMerge(Visits) AS Visits,uniqMerge(Users) AS Users
FROM test.agg_visits

物化视图

创建物化视图,物化视图和普通视图区别是,物化视图是存储数据得,并且可以动态得监听底表数据变化,并将变化得数据写入物化视图中。而普通视图是不存储数据的

CREATE MATERIALIZED VIEW test.visits_mv TO test.agg_visits
AS SELECTStartDate,CounterID,sumState(Sign) AS Visits,uniqState(UserID) AS Users
FROM test.visits
GROUP BY StartDate, CounterID;

视图visits_mv 是基于表agg_visits之上建立的,并将数据插入agg_visits和视图visits_mv。
底表是visits,当底表数据变化时候,agg_visits和visits_mv 会进行自动更新数据。
当直接向agg_visits插入数据,那么当底表visits插入了一条新数据时候,只能手动去更新agg_visits表数据,不能主动识别

生产例子

CREATE MATERIALIZED VIEW app.app_eap_entity_member_de_153578 TO app.app_eap_entity_member_aggregate_de_153578
AS
SELECTaliuid_info_final AS aliuid_info,aliuid_info_value_timestamp,birthday_final AS birthday,birthday_value_timestamp,cre_date_final AS cre_date,cre_date_value_timestamp,creator_final AS creator,creator_value_timestamp,creator_name_final AS creator_name,creator_name_value_timestamp,creator_store_final AS creator_store,creator_store_value_timestamp,data_trace_id_final AS data_trace_id,data_trace_id_value_timestamp,wechat_type_final AS wechat_type,wechat_type_value_timestamp,dt_final AS dt,version_timestamp_final AS version_timestamp,version,is_deleted_final AS is_deleted
FROM 
(SELECTargMaxIfState(event_behavior_timestamp, event_behavior_timestamp, isNotNull(aliuid_info)) AS aliuid_info_value_timestamp,argMaxIfState(aliuid_info, event_behavior_timestamp, isNotNull(aliuid_info)) AS aliuid_info_final,argMaxIfState(event_behavior_timestamp, event_behavior_timestamp, isNotNull(manager_name)) AS manager_name_value_timestamp,argMaxIfState(manager_name, event_behavior_timestamp, isNotNull(manager_name)) AS manager_name_final,argMaxIfState(event_behavior_timestamp, event_behavior_timestamp, isNotNull(member_creator)) AS member_creator_value_timestamp,argMaxIfState(member_creator, event_behavior_timestamp, isNotNull(member_creator)) AS member_creator_final,pguid AS pguid,argMaxIfState(event_behavior_timestamp, event_behavior_timestamp, isNotNull(wechat_type)) AS wechat_type_value_timestamp,argMaxIfState(wechat_type, event_behavior_timestamp, isNotNull(wechat_type)) AS wechat_type_final,argMaxIfState(dt, event_behavior_timestamp, isNotNull(dt)) AS dt_final,argMaxIfState(version_timestamp, event_behavior_timestamp, isNotNull(version_timestamp)) AS version_timestamp_final,maxState(event_behavior_timestamp) AS version,argMaxIfState(is_deleted, event_behavior_timestamp, isNotNull(is_deleted)) AS is_deleted_finalFROM app.app_eap_entity_member_log_de_153578GROUP BY pguid
)
CREATE TABLE app.app_eap_entity_member_aggregate_de_153578
(`aliuid_info` AggregateFunction(argMaxIf, Nullable(String), Int64, UInt8),`aliuid_info_value_timestamp` AggregateFunction(argMaxIf, Int64, Int64, UInt8),`birthday` AggregateFunction(argMaxIf, Nullable(String), Int64, UInt8),`pguid` Int64,`wechat_type` AggregateFunction(argMaxIf, Nullable(Int32), Int64, UInt8),`wechat_type_value_timestamp` AggregateFunction(argMaxIf, Int64, Int64, UInt8),`dt` AggregateFunction(argMaxIf, String, Int64, UInt8),`version_timestamp` AggregateFunction(argMaxIf, Int64, Int64, UInt8),`version` AggregateFunction(max, Int64),`is_deleted` AggregateFunction(argMaxIf, Int32, Int64, UInt8)
)
ENGINE = ReplicatedAggregatingMergeTree('/clickhouse/tables/{shard}/app/app_eap_entity_member_aggregate_de_153578', '{replica}')
PARTITION BY xxHash64(pguid) % 10
ORDER BY pguid
SETTINGS index_granularity = 8192, only_allow_select_statement = 0
CREATE TABLE app.app_eap_entity_member_log_de_153578
(`event_data_id` String,`aliuid_info` Nullable(String),`birthday` Nullable(String),`cre_date` Nullable(Int64),`creator` Nullable(String),`creator_name` Nullable(String),`pguid` Int64,`takeover_time` Nullable(Int64),`version_timestamp` Int64,`is_deleted` Int32 DEFAULT 0,`dt` String
)
ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/app/app_eap_entity_member_log_de_153578', '{replica}')
PARTITION BY (tenant_channel, substring(dt, 1, 4))
ORDER BY (event_behavior_id, event_data_id)
SETTINGS index_granularity = 8192, only_allow_select_statement = 0

位图

https://blog.csdn.net/weixin_39025362/article/details/110390251

Clickhouse实现数据的有限更新

https://www.modb.pro/db/61195

selectarrayJoin(bitmapToArray(groupBitmapAndState(pguid))) as pguid,'user_tag_huiyuan','L0','${start_date2}','all','all'from (select  bitmapBuild(groupArray(toUInt64(pguid))) as pguidfrom(select pguid from app.app_eap_entity_member_aggregate_degroup by pguidhaving argMaxIfMerge(user_status) in (  0  )and argMaxIfMerge(is_deleted) =  0))

索引

京东零售解决方案

既然有了ES,为何还用ClickHouse——从原理万字总结ClickHouse为何这么快

Clickhouse 索引原理

这篇关于Clickhouse中物化视图和位图和索引的用法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971406

相关文章

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con

详解MySQL中JSON数据类型用法及与传统JSON字符串对比

《详解MySQL中JSON数据类型用法及与传统JSON字符串对比》MySQL从5.7版本开始引入了JSON数据类型,专门用于存储JSON格式的数据,本文将为大家简单介绍一下MySQL中JSON数据类型... 目录前言基本用法jsON数据类型 vs 传统JSON字符串1. 存储方式2. 查询方式对比3. 索引

MySQL逻辑删除与唯一索引冲突解决方案

《MySQL逻辑删除与唯一索引冲突解决方案》本文探讨MySQL逻辑删除与唯一索引冲突问题,提出四种解决方案:复合索引+时间戳、修改唯一字段、历史表、业务层校验,推荐方案1和方案3,适用于不同场景,感兴... 目录问题背景问题复现解决方案解决方案1.复合唯一索引 + 时间戳删除字段解决方案2:删除后修改唯一字

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

浅谈mysql的not exists走不走索引

《浅谈mysql的notexists走不走索引》在MySQL中,​NOTEXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引,下面就来介绍一下mysql的notexists走不走索... 在mysql中,​NOT EXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引。以下

Java中的数组与集合基本用法详解

《Java中的数组与集合基本用法详解》本文介绍了Java数组和集合框架的基础知识,数组部分涵盖了一维、二维及多维数组的声明、初始化、访问与遍历方法,以及Arrays类的常用操作,对Java数组与集合相... 目录一、Java数组基础1.1 数组结构概述1.2 一维数组1.2.1 声明与初始化1.2.2 访问