「阅读」数据密集型系统设计 第六章 分区

2024-08-25 01:28

本文主要是介绍「阅读」数据密集型系统设计 第六章 分区,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 6.1 介绍
  • 6.2 如何实现分区?
    • 6.2.1 键值数据分区
    • 6.2.2 分区和次级索引
      • 次级索引的分区问题
      • 方案一:基于文档的分区-本地索引
      • 方案二:基于关键词的分区-全局索引
    • 6.2.3 分区再平衡问题 && 解决方案
      • 问题介绍
      • 策略一:hash && Mod N(不推荐)
      • 策略二:固定数量分区
      • 策略三:动态分区
      • 策略四:按照节点比例分区

6.1 介绍

  1. 什么是分区?
    分区是通过特定列的值将数据划分为逻辑独立的部分,每个分区是一个数据子集。
    常见的可以用于分区的维度:时间、地理位置、类别等
  2. 分区的好处?
    1. 提高查询性能:只扫描某个表而不是整张表
    2. 提高管理和维护数据的能力:数据通过某个维度进行组织。
  3. 为什么有分区技术?
    分区技术的初衷:针对海量数据场景,提高获取/更新数据的性能
    分区技术和可伸缩性契合。

6.2 如何实现分区?

6.2.1 键值数据分区

目标

将数据和查询负载均匀分布到各个节点中。

方案一:随机分配
随机分配可以保证负载均衡,但是当读取一个特定值时,无法知道该值在那个分区,只能遍历全表。

方案二:根据键的范围分区
定义:每个分区定义一个最小值和最大值。
优点:

  1. 查询时可以找到迅速找到分区
    缺点:
  2. 数据分布无法保证均匀,可能会导致某个(些)分区成为“热点”

方案三:散列(hash)分区–一致性哈希算法
优点:

  1. 可以公平的分配键,负载比较均衡
    缺点:
  2. 范围查询性能没有提升

6.2.2 分区和次级索引

次级索引的分区问题

当前数据库,例如 mysql、oracle 中,分区键中必须是主键的一部分,因此主键是可以快速定位到分区的。

但是次级索引列和分区键可能是两个不同的列,通过次级索引列的每次操作,就需要对所有数据进行操作。
参考资料:mysql 分区键为什么必须是主键的一部分

方案一:基于文档的分区-本地索引

在这里插入图片描述

这种索引优点:

  • 每个分区完全独立,只需要处理当前分区中的信息

缺点

  • 不会将某种特定的 key 放在一起(color 所有数据),导致搜索时必须全表扫描

应用的数据库如 MongoDB、Elasticsearch 等。

方案二:基于关键词的分区-全局索引

在这里插入图片描述

构建一个覆盖所有分区数据的全局索引。全局索引也不可以放在一个节点上,需要进行分区。

优点:

  • 读取效率更高

缺点:

  • 写入速度慢 && 复杂
  • 需要跨分区的事务

6.2.3 分区再平衡问题 && 解决方案

问题介绍

随时间推移,数据库以下情况都需要数据 && 请求从一个节点转移到另一个节点种,将负载从一个节点转移到另一个节点的过程称为再平衡

  • 查询吞吐量增加
  • 数据集大小增加
  • 机器故障

再平衡目标:

  • 负载应该公平
  • 再平衡进行中,服务可用
  • 节点间移动的数据应该尽量少

策略一:hash && Mod N(不推荐)

策略执行:先对 key 进行 hash,对结果通过 mod n 分区。

节点数量 n 增加时,大量原有数据必须迁移,成本过大。

策略二:固定数量分区

分区数量 > 节点数量,每个节点分配多个分区。

![[Pasted image 20240824224624.png]]

优点:

  • 分区在节点种移动
  • 分区总数不变
    缺点:
  • 无法很好的评估分区数量

策略三:动态分区

采用关键字区间分区的数据库,如果边界设置有问题,可能导致数据倾斜到一个分区中。

  • 按键的范围进行分区的数据库(如HBase和RethinkDB)会动态创建分区。
  • 当分区增长到超过配置的大小时(在HBase上,默认值是10GB),会被分成两个分区,每个分区约占一半的数据。
  • 与之相反,如果大量数据被删除并且分区缩小到某个阈值以下,则可以将其与相邻分区合并。此过程与B树顶层发生的过程类似。
    优点:
  • 分区数量适应总数据量
    缺点:
  • 空数据库从 1 个分区开始,导致所有写入必须单个节点处理,其他节点空闲。

策略四:按照节点比例分区

动态分区和固定数量的分区,分区数量都与节点数量无关。
Cassandra和Ketama使用的第三种方法是使分区数与节点数成正比:每个节点有固定数量的分区。

  • 当节点数不变,分区大小与数据集大小成比例增长;
  • 当节点数改变,分区大小将变小。

操作方式:

  • 当一个新节点加入集群时,它随机选择固定数量的现有分区进行拆分,然后占有这些拆分分区中每个分区的一半,同时将每个分区的另一半留在原地。
  • 随机化可能会产生不公平的分割,但是平均在更大数量的分区上时,新节点最终从现有节点获得公平的负载份额。
  • 随机选择分区边界要求使用基于散列的分区(可以从散列函数产生的数字范围中挑选边界)。实际上,这种方法最符合一致性哈希的原始定义。

这篇关于「阅读」数据密集型系统设计 第六章 分区的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104169

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

Windows系统宽带限制如何解除?

《Windows系统宽带限制如何解除?》有不少用户反映电脑网速慢得情况,可能是宽带速度被限制的原因,只需解除限制即可,具体该如何操作呢?本文就跟大家一起来看看Windows系统解除网络限制的操作方法吧... 有不少用户反映电脑网速慢得情况,可能是宽带速度被限制的原因,只需解除限制即可,具体该如何操作呢?本文

CentOS和Ubuntu系统使用shell脚本创建用户和设置密码

《CentOS和Ubuntu系统使用shell脚本创建用户和设置密码》在Linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设置密码,本文写了一个shell... 在linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设

电脑找不到mfc90u.dll文件怎么办? 系统报错mfc90u.dll丢失修复的5种方案

《电脑找不到mfc90u.dll文件怎么办?系统报错mfc90u.dll丢失修复的5种方案》在我们日常使用电脑的过程中,可能会遇到一些软件或系统错误,其中之一就是mfc90u.dll丢失,那么,mf... 在大部分情况下出现我们运行或安装软件,游戏出现提示丢失某些DLL文件或OCX文件的原因可能是原始安装包

电脑显示mfc100u.dll丢失怎么办?系统报错mfc90u.dll丢失5种修复方案

《电脑显示mfc100u.dll丢失怎么办?系统报错mfc90u.dll丢失5种修复方案》最近有不少兄弟反映,电脑突然弹出“mfc100u.dll已加载,但找不到入口点”的错误提示,导致一些程序无法正... 在计算机使用过程中,我们经常会遇到一些错误提示,其中最常见的就是“找不到指定的模块”或“缺少某个DL

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll