amazon redshift 系统架构

2024-01-14 06:58
文章标签 系统 架构 amazon redshift

本文主要是介绍amazon redshift 系统架构,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景
数据仓库系统架构

此部分介绍 Amazon Redshift 数据仓库架构的元素,如下图所示。
这里写图片描述

客户端应用程序

Amazon Redshift 与各种数据加载和 ETL(提取、转换和加载)工具以及商业智能 (BI) 报告、数据挖掘和分析工具集成。Amazon Redshift 基于行业标准 PostgreSQL,因此,大多数现有 SQL 客户端应用程序仅处理最少量的更改。有关 Amazon Redshift SQL 和 PostgreSQL 之间的重要差异的信息,请参阅 Amazon Redshift 和 PostgreSQL。

连接

Amazon Redshift 通过使用行业标准 PostgreSQL JDBC 和 ODBC 驱动程序与客户端应用程序进行通信。有关更多信息,请参阅 Amazon Redshift 和 PostgreSQL JDBC 以及 ODBC。

群集

Amazon Redshift 数据仓库的核心基础设施组件是群集。

群集包含一个或多个计算节点。如果群集预置有两个或更多计算节点,则一个额外的领导节点 将协调这些计算节点并处理外部通信。您的客户端应用程序仅直接与领导节点交互。计算节点对于外部应用程序是透明的。

领导节点

领导节点管理与客户端程序的通信以及与计算节点的所有通信。它分析和制定执行计划以实施数据库操作,特别是获得复杂查询的结果所需执行的一系列步骤。根据执行计划,领导节点编译节点、将编译后的节点分发给计算节点,并将部分数据分配给每个计算节点。

领导节点仅在查询引用计算节点上存储的表时,才将 SQL 语句分发给计算节点。所有其他查询仅在领导节点上运行。Amazon Redshift 设计为仅在领导节点上实施特定的 SQL 函数。如果使用这些函数中的任一函数的查询引用驻留在计算节点上的表,则此查询将返回一个错误。有关更多信息,请参阅 在领导节点上支持的 SQL 函数。

计算节点

领导节点为执行计划的单个元素编译代码并将代码分配给各个计算节点。计算节点执行编译后的代码,并将中间结果发送回领导节点以便最终聚合。

每个计算节点均拥有自己的专用 CPU、内存和连接的磁盘存储,这都由节点类型决定。当您的工作负载增加时,您可以通过增加节点数和/或升级节点类型来增加群集的计算容量和存储容量。

Amazon Redshift 提供两种节点类型;密集存储节点和密集计算节点。每个节点提供两个存储选项。您可从单个 160 GB 节点开始并向上扩展至多个 16 TB 节点以支持 PB 级数据或更多数据。

有关数据仓库群集和节点的更详细说明,请参阅内部架构和系统操作。

节点切片

一个计算节点分为多个切片。将为每个切片分配节点的内存和磁盘空间的一部分,从而处理分配给节点的工作负载的一部分。领导节点管理向切片分发数据的工作,并将任何查询或其他数据库操作的工作负载分配给切片。然后,切片将并行工作以完成操作。

每个节点的切片数由群集的节点大小决定。有关每个节点大小所对应的切片数的更多信息,请转到 Amazon Redshift Cluster Management Guide 中的关于群集和节点。

在创建表时,您可以选择将一个列指定为分配键。在将表与数据一起加载时,会根据为表定义的分配键将行分配给节点切片。选择好的分配键将使 Amazon Redshift 能够使用并行处理来加载数据和高效执行查询。有关选择分配键的信息,请参阅选择最佳分配方式。

内部网络

Amazon Redshift 利用高带宽连接、紧邻和自定义通信协议来提供领导节点和计算节点之间的速度极快的私有网络通信。计算节点在客户端应用程序绝对无法直接访问的独立的、隔离网络上运行。

数据库

一个群集包含一个或多个数据库。用户数据存储在计算节点上。您的 SQL 客户端与领导节点进行通信,进而通过计算节点协调查询执行。

Amazon Redshift 是一个关系数据库管理系统 (RDBMS),可与其他 RDBMS 应用程序兼容。虽然 Amazon Redshift 提供了与典型 RDBMS 相同的功能(包括在线事务处理 (OLTP) 功能,例如,插入并删除数据),但它已经过优化,可对大型数据集进行高性能的分析和报告。

Amazon Redshift 基于 PostgreSQL 8.0.2。Amazon Redshift 和 PostgreSQL 之间的差别非常大,您在设计和开发数据仓库应用程序时需要注意这一点。有关 Amazon Redshift SQL 与 PostgreSQL 之间的差异的信息,请参阅 Amazon Redshift 和 PostgreSQL。

这篇关于amazon redshift 系统架构的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/604294

相关文章

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

Maven 插件配置分层架构深度解析

《Maven插件配置分层架构深度解析》:本文主要介绍Maven插件配置分层架构深度解析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Maven 插件配置分层架构深度解析引言:当构建逻辑遇上复杂配置第一章 Maven插件配置的三重境界1.1 插件配置的拓扑

ubuntu20.0.4系统中安装Anaconda的超详细图文教程

《ubuntu20.0.4系统中安装Anaconda的超详细图文教程》:本文主要介绍了在Ubuntu系统中如何下载和安装Anaconda,提供了两种方法,详细内容请阅读本文,希望能对你有所帮助... 本文介绍了在Ubuntu系统中如何下载和安装Anaconda。提供了两种方法,包括通过网页手动下载和使用wg

ubuntu系统使用官方操作命令升级Dify指南

《ubuntu系统使用官方操作命令升级Dify指南》Dify支持自动化执行、日志记录和结果管理,适用于数据处理、模型训练和部署等场景,今天我们就来看看ubuntu系统中使用官方操作命令升级Dify的方... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。