Raft分区产生的脏读问题

2024-08-22 13:44
文章标签 问题 分区 产生 raft 脏读

本文主要是介绍Raft分区产生的脏读问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Raft分区产生的脏读问题

  • 前言
  • 网络分区
    • 情况1 4和5分到一个分区,即当前leader依然在多数分区
    • 情况2 1和2分到一个分区,即当前leader在少数分区
  • 脏读问题的解决
    • 官方解答
    • 其他论文
  • 参考链接

前言

昨天面试阿里云被问到了这个问题,在此记录一下。

网络分区

有一个raft集群如下所示,然后发生网络分区:

在这里插入图片描述

情况1 4和5分到一个分区,即当前leader依然在多数分区

此时4 5收不到leader的心跳,成为candidate后由于得不到多数票所以选举失败,都不会成为leader

这种情况下,客户的读写请求还是会发送给leader节点1,依然能够正常读写。

情况2 1和2分到一个分区,即当前leader在少数分区

此时在另一个多数节点存在的分区一定会选举出一个新Leader,比如3当选为新leader,此时3的term会为原来的1的term+1,而1依然是leader,term不会发生变化。
在这里插入图片描述
这时,客户端发生读写请求会有以下几种情况:

  • 对1的写请求:1接收写请求后append log entry到followers,但只能与2通信,因此得不到多数节点的成功返回,这个请求会处于uncommited状态
  • 对3的写请求:3的写请求可以得到多数节点的响应,因此能够正确返回
  • 对3的读请求:3的term更新,能够直接从3读取更新的数据
  • 对1的读请求:有可能出现脏读

脏读问题的解决

官方解答

针对脏读问题问题,官方给的方案是需要额外2个额外的措施来保证:

1、领导人必须有关于被提交日志的最新信息

即在它的任期里必须马上提交一条空白的日志条目,即心跳;

这段话的意思是在一个节点成为Leader之前,至少向多数节点发送一次心跳来进行确认日志情况,在没收到心跳响应之前是不能响应客户端的;

2、领导人在处理只读的请求之前必须检查自己是否已经被废除了

具体实现是Leader在响应只读请求之前,先和集群中的大多数节点交换一次心跳信息来处理这个问题,即发送一次心跳的RPC,收到响应无误之后才能返回给客户端,即每次读请求要和多数成员做一次心跳以确认自己仍然是 Leader。

其他论文

除此之外,为了解决分区读产生的脏读问题,在论文 通过 raft 的 leader lease 来解决集群脑裂时的 stale read 问题中提出了region leader的概念。

对整个系统引入一个唯一的region leader,所有的读写请求都必须在region leader上进行,region leader可以和raft集群的leader不同,此时需要将读写请求重定向给raft leader

对于上述分区结果,有以下几种情况;

  • region leader和1.2在同一分区,此时3 4 5的多数分区会产生一个新的region leader,而老的region leader由于联系不上多数节点,只能等到lease过期,最新的读写会通过最新的region leader来进行(这里存疑,因为不知道region leader选举的具体过程,也没找到论文的原文,感觉可能是region leader会进行某种检查来判定自己是否可用)
  • regon leader和3,4,5在同一分区:此时会选举出一个新的raft leader, region leader的读写请求会发送给新的raft leader,实现最新数据的读取

参考链接

1: https://segmentfault.com/a/1190000038171007
2: https://blog.csdn.net/chdhust/article/details/77829103

这篇关于Raft分区产生的脏读问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096441

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

解决Nginx启动报错Job for nginx.service failed because the control process exited with error code问题

《解决Nginx启动报错Jobfornginx.servicefailedbecausethecontrolprocessexitedwitherrorcode问题》Nginx启... 目录一、报错如下二、解决原因三、解决方式总结一、报错如下Job for nginx.service failed bec

SysMain服务可以关吗? 解决SysMain服务导致的高CPU使用率问题

《SysMain服务可以关吗?解决SysMain服务导致的高CPU使用率问题》SysMain服务是超级预读取,该服务会记录您打开应用程序的模式,并预先将它们加载到内存中以节省时间,但它可能占用大量... 在使用电脑的过程中,CPU使用率居高不下是许多用户都遇到过的问题,其中名为SysMain的服务往往是罪魁

MySQ中出现幻读问题的解决过程

《MySQ中出现幻读问题的解决过程》文章解析MySQLInnoDB通过MVCC与间隙锁机制在可重复读隔离级别下解决幻读,确保事务一致性,同时指出性能影响及乐观锁等替代方案,帮助开发者优化数据库应用... 目录一、幻读的准确定义与核心特征幻读 vs 不可重复读二、mysql隔离级别深度解析各隔离级别的实现差异

C++ vector越界问题的完整解决方案

《C++vector越界问题的完整解决方案》在C++开发中,std::vector作为最常用的动态数组容器,其便捷性与性能优势使其成为处理可变长度数据的首选,然而,数组越界访问始终是威胁程序稳定性的... 目录引言一、vector越界的底层原理与危害1.1 越界访问的本质原因1.2 越界访问的实际危害二、基

Python多线程应用中的卡死问题优化方案指南

《Python多线程应用中的卡死问题优化方案指南》在利用Python语言开发某查询软件时,遇到了点击搜索按钮后软件卡死的问题,本文将简单分析一下出现的原因以及对应的优化方案,希望对大家有所帮助... 目录问题描述优化方案1. 网络请求优化2. 多线程架构优化3. 全局异常处理4. 配置管理优化优化效果1.