使用 Kubernetes 部署 MinIO 和 Trino

2024-06-21 10:52

本文主要是介绍使用 Kubernetes 部署 MinIO 和 Trino,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Trino(以前称为 Presto)是一个 SQL 查询引擎,而不是 SQL 数据库。Trino 避开了 SQL 数据库的存储组件,只专注于一件事 - 超快的 SQL 查询。Trino 只是一个查询引擎,不存储数据。相反,Trino与各种数据库交互或直接在对象存储上交互。Trino 解析和分析您传入的 SQL 查询,创建并优化包含数据源的查询执行计划,然后调度能够智能查询它们所连接的基础数据库的工作器节点。

MinIO 经常用于存储来自 AI/ML 工作负载、数据湖到湖屋的数据,无论是 Dremio、Hive、Hudi、StarRocks 还是其他十几种出色的 AI/ML 工具解决方案。MinIO 用作主存储层时效率更高,从而降低了存储数据的总拥有成本,此外,您还可以获得将数据写入 MinIO 的额外好处,这些数据是不可变的、版本控制的,并受纠删码保护。此外,将数据保存到 MinIO 对象存储可以将其用于其他云原生机器学习和分析应用程序。

在本教程中,我们将部署一个有凝聚力的系统,该系统允许对存储在 Minio 中的大型数据集进行分布式 SQL 查询,Trino 利用 Hive Metastore 的元数据和 Redis 的表架构。

组件

以下是不同的组件以及它们在我们接下来将要介绍的设置过程中的作用。

  • Minio:Minio可用于存储大型数据集,例如Trino通常分析的数据集。

  • Hive 元存储:Hive 元存储是一种存储 Hive 表(如表架构)元数据的服务。Trino 可以在查询数据集时使用 Hive Metastore 来确定表的架构。

  • PostgreSQL for Hive Metastore:这是 Hive Metastore 的数据库后端。它是实际存储元数据的地方。

  • Redis:在此设置中,Redis 用于存储 Trino 的表模式。

  • Trino:Trino(以前称为 Presto)是一个高性能的分布式 SQL 查询引擎。它允许跨各种数据源(如 SQL 数据库、NoSQL 数据库,甚至像 Minio 这样的对象存储)查询数据。

先决条件

在开始之前,请确保已安装用于管理 Kubernetes 集群的必要工具:

  • kubectl:用于管理 Kubernetes 集群的主要命令行工具。您可以使用它来检查、操作和管理集群资源。

  • helm:Kubernetes 的包管理器。Helm 允许您使用预定义的图表在集群中部署、升级和管理应用程序。

存储库克隆

要访问在 Kubernetes 上部署 Trino 所需的资源,请克隆特定的 GitHub 存储库并导航到相应的目录:


git clone https://github.com/minio/blog-assets.gitcd blog-assets/trino-on-kubernetes

##Kubernetes 命名空间创建

Kubernetes 中的命名空间为应用程序提供了隔离的环境。为 Trino 创建一个新的命名空间来封装其部署:


kubectl create namespace trino --dry-run=client -o yaml | kubectl apply -f -

Redis 表定义密钥

Redis 将存储 Trino 使用的表架构。使用 Kubernetes Secret 保护这些架构。以下命令创建一个通用密钥,从 JSON 文件获取数据:

kubectl create secret generic redis-table-definition --from-file=redis/test.json -n trino || true

添加 Helm 存储库

Helm 存储库提供预打包的图表,可简化应用程序部署。将 Bitnami 和 Trino 存储库添加到 Helm 配置中:

helm repo add bitnami https://charts.bitnami.com/bitnami || truehelm repo add trino https://trinodb.github.io/charts/ || true

部署 MinIO 进行数据存储

初始化 MinIO

在 Trino 命名空间中准备 MinIO。

kubectl minio init -n trino

创建 MinIO 租户

设置用于数据存储的多租户体系结构。以下示例创建一个名为“tenant-1”的租户,其中包含 4 台服务器、4 个存储卷和 4 GiB 的容量:


kubectl minio tenant create tenant-1 --servers 4 --volumes 4 --capacity 4Gi -n trino

设置 Hive 元存储

Trino 利用 Hive Metastore 来存储表元数据。部署 PostgreSQL 以管理元数据,然后设置 Hive 元存储:

安装 PostgreSQL


helm upgrade --install hive-metastore-postgresql bitnami/postgresql -n trino -f hive-metastore-postgresql/values.yaml

部署 Hive 元存储

使用预配置的 Helm 图表在 Trino 命名空间中部署 Hive 元存储:


helm upgrade --install my-hive-metastore -n trino -f hive-metastore/values.yaml ./charts/hive-metastore

使用 Kubernetes 部署 MinIO 和 Trino

Trino 和 MinIO 为跨大型数据集的分布式 SQL 查询创建了一个强大的组合。按照以下步骤部署和配置系统。

部署 Redis 以存储表架构

Redis 是一种高速的内存数据存储,用于保存 Trino 表架构以增强查询性能。使用 Helm chart 在 Trino 命名空间中部署它:


helm upgrade --install my-redis bitnami/redis -n trino -f redis/values.yaml

部署Trino

将 Trino 部署为将连接到 MinIO 和其他数据源的分布式 SQL 查询引擎:


helm upgrade --install my-trino trino/trino --version 0.7.0 --namespace trino -f trino/values.yaml

验证部署

通过列出 Trino 命名空间中的 pod 来确认所有组件都正常运行:

kubectl get pods -n trino

安全审查和调整

根据需要查看和调整安全设置。要禁用 S3 连接的 SSL 证书验证,请使用以下属性更新 values.yaml 文件的 additionalCatalogs 部分:

 hive.s3.ssl.enabled=false

测试

端口转发到 MinIO 租户服务

端口转发到租户的 MinIO 服务,启用本地访问:


kubectl port-forward svc/minio -n trino 9443:443

为 Trino 创建别名和存储桶

1 . 创建别名:使用 MinIO 部署中的凭据为租户建立别名:


mc alias set my-minio https://localhost:9443/ minio_access_key minio_secret_key --insecure

2 . 创建存储桶:创建Trino将使用的新存储桶


mc mb my-minio/tiny --insecure

通过端口转发访问Trino UI

1 . 获取 Pod 名称:检索 Trino 协调器 Pod 的名称:


export POD_NAME=$(kubectl get pods --namespace trino -l "app=trino,release=my-trino,component=coordinator" -o jsonpath="{.items[0].metadata.name}")

2 . 端口转发:将本地端口 8080 转发到协调器 pod:


kubectl port-forward $POD_NAME 8080:8080

3 . 访问 UI:通过访问 http://127.0.0.1:8080 在浏览器中使用 Trino UI。

通过CLI查询Trino

访问 Trino 协调器 pod 并通过命令行开始查询:

kubectl exec -it deploy/my-trino-coordinator -n trino -- trino

SHOW CATALOGS;
SHOW SCHEMAS IN minio;
       Schema--------------------defaultinformation_schema
CREATE SCHEMA minio.tinyWITH (location = 's3a://tiny/');
CREATE TABLE minio.tiny.customerWITH (format = 'ORC',external_location = 's3a://tiny/customer/') AS SELECT * FROM tpch.tiny.customer;
SELECT * FROM minio.tiny.customer LIMIT 50;
SHOW SCHEMAS IN minio;
      Schema--------------------defaultinformation_schematiny(3 rows)

确认MinIO Bucket中的数据

创建存储桶后,使用 mc 命令行工具列出内容,确认数据存储在 MinIO 中。使用以下命令:

mc ls my-minio/tiny --insecure

就这么简单!

最后的思考

在对配置问题(尤其是与安全性相关的问题)进行故障排除时,请彻底检查每个组件的 values.yaml 文件,以确保设置正确。

Trino 因其跨各种数据层(无论是专用数据库还是对象存储)优化查询的能力而脱颖而出。它旨在通过下推查询以仅检索所需的基本数据来最大程度地减少数据传输。这使Trino能够连接来自不同来源的数据集,执行进一步处理,或有效地返回精确的结果。

MinIO因其行业领先的可扩展性和性能而与Trino完美搭配。MinIO 能够处理跨 AI/ML 和分析的大量工作负载,毫不费力地支持 Trino 查询及其他查询。在最近的基准测试中,MinIO 在 32 个节点上实现了令人印象深刻的 325 GiB/s (349 GB/s) 的 GET 操作和 165 GiB/s (177 GB/s) 的 PUT 操作。这种卓越的性能确保了存储在MinIO中的数据仍然易于访问,使MinIO成为Trino的可靠和高性能选择,而不会成为瓶颈。

这篇关于使用 Kubernetes 部署 MinIO 和 Trino的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1081029

相关文章

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时