如何在kylin中构建一个cube

2024-05-15 03:08
文章标签 构建 kylin cube

本文主要是介绍如何在kylin中构建一个cube,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

image

前面的文章介绍了Apache Kylin的安装及数据仓库里面的星型和雪花模型的概念,这篇文章我们来看下,如何构建一个kylin的cube进行查询。这里不得不吐槽一下Kylin的资料,少之又少出现问题网上基本找不到解决方案,所以想要学习kylin,建议大家买一本书系统的学习一下,这里推荐一本入门的书《基于Apache kylin构建大数据分析平台》,介绍的还可以。

下面来看下如何构建一个cube:

首先,我们要明白kylin的数据源主要来自Hive里面的各种表,如果想要进行测试,那么首先我们要在hive中有自己的表,注意,表的类型基本有两种,一种是事实表,一种是维度表,kylin使用的是星型模型,通常一个事实表会关联多个维度表,表的数据有了,下面就是通过kylin的ui界面来完成整个流程。除此之外keylin还支持从kafka构建流式表,由于使用场景比较少,这里就不讨论这个了。

下面通过一张图看下整个构建cube的操作流程:

image

(1) 登录7070端口下面的kylin的web管理页面,默认的用户名是KYLIN密码是ADMIN

image

(2)点击左上角的加号小按钮,新建一个工程

image

(3)选择这个工程,然后点击model面板,并点击Data Source面板,选择配置hive数据源,并加载需要用到的表同步到kylin里面 image

image

(4)点击Models,开始设计model,这个步骤主要是基础加工,配置一个事实表和多个维表以及他们的关联条件,和需要统计的维度和度量 image

(5)设计cube image

image(6)构建cube image

(7)查看cule的构建进度 image

(8)最后查询cule数据 image

至此一整个的cuble构建流程完事,整体步骤还是比较多的,当然里面有一些步骤并没有说的那么详细,此外设计cuble的步骤有一些高级配置,对优化查询有着比较重要的作用,这块现在还没太深入,这个demo只是让我们有一个整体的认识,如果对高级的设计感兴趣的朋友可以看kylin的官网文档。

Kylin的本质是基于空间换时间的策略来实现亚秒级的查询,本身只是一个Server,充分利用了Hadoop+Hive来把结果集数据预构建到Hbase里来优化提高查询效率。所以想要使用Kylin必须保证你的Hadoop,Hive,Hbase已经安装,并且能正常使用。

构建cube的本质,其实就是把各种可能用到的查询,聚合,统计提前预计算好,然后按规则写入hbase,这样在查询的时候,基于rowkey的查询响应速度非常快,而且随着数据量的增大,查询响应时间基本是个常量,虽然查询很快,但是离线使用MapReduce来预构建cube的过程确实非常之慢,另外一个缺点是单kylin的server并发非常低,根据我们的测试也就40左右,大家可能有疑问,hbase本身支持的并发是非常强大的为什么到了kylin这里就这么低,其实kylin server服务不仅仅只是查询hbase的结果返回给前端,大部分时候都需要在server的内存里做各种运算,比如分页,排序,聚合等,所以如果大并发量一旦瞬间上来可把kylin server所在的tomcat的jvm内存给耗尽,最终导致任务失败或者服务挂掉。所以kylin的定位是给产品或者运营使用的大数据OLAP查询引擎,如果并发量比较高的业务,使用kylin一直要提前测试好,根据并发情况多部署几个kylin server服务。

总结:

总体来说,对于一些字段数固定且不经常改变schema的大表数据,采用kylin来进行OLAP查询是非常适合的,性能也不错,但是如果scheam经常变换,统计的维度和度量也可能变换这种场景是不太适合用kylin来解决的,可以尝试ES或者SOLR来分析,最后需要注意的事kylin的并发支持并不太好,非常高并发的查询服务,一定要严格测试后,多部署几个kylin server且做好读写分离,提交任务的server集群和查询server集群分开部署。



这篇关于如何在kylin中构建一个cube的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990628

相关文章

Python利用PySpark和Kafka实现流处理引擎构建指南

《Python利用PySpark和Kafka实现流处理引擎构建指南》本文将深入解剖基于Python的实时处理黄金组合:Kafka(分布式消息队列)与PySpark(分布式计算引擎)的化学反应,并构建一... 目录引言:数据洪流时代的生存法则第一章 Kafka:数据世界的中央神经系统消息引擎核心设计哲学高吞吐

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结