MySQL:修改系统时钟会导致数据库hang住吗?

2023-10-19 17:30

本文主要是介绍MySQL:修改系统时钟会导致数据库hang住吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

水平有限,有误请谅解

约定:

  • page rwlock:控制page frame本生的读写锁,这个通常再进行对page的读取和修改的时候会涉及到,比如对page的修改需要上x类型的锁。

  • page mutex:主要控制page的io状态等信息的mutex,本文不涉及。

  • MTR:最小日志单元,对于写操作而言,其中包含了redo信息和page rwlock信息,MTR提交的时候会释放page rw lock,并且将本次MTR的redo信息写到redo buffer。

一、问题展示

最近遇到2次这个比较奇葩得问题,一次是8.0.16/一次是8.0.18,主要是信号量监控线程发现读写锁超时自杀重启数据库。问题现象如下:

  1. 读写锁超时crash

主要的等待在如下的rwlock上,如下:

  • 某线程 --Thread 140571742508800 has waited at buf0flu.cc line 1357 for 830 seconds the semaphore

  • 某线程 --Thread 140579717510912 has waited at btr0pcur.h line 656 for 613 seconds the semaphore

当然不是上面这么少,肯定很多,但是类型大概就是这两种。

  1. 日志系统完全停止

这个问题主要在于整个信号量超时期间,从第一个信息输出到最后一个信息输出都不会变比如如下:

Log sequence number          20600471237
Log buffer assigned up to    20600471237
Log buffer completed up to   20600471237
Log written up to            20600471237
Log flushed up to            20600471237
Added dirty pages up to      20598368792
Pages flushed up to          20598368792
Last checkpoint at           20598368792
...
Pending writes: LRU 0, flush list 2, single page 0

这里伴随着刷盘IO的问题。

二、初次分析

  1. 这些堵塞的线程到底是什么,又堵塞在什么读写锁上

一般来讲我们读写锁一般都说文中开头说的page rwlock。

--Thread 140571742508800 has waited at buf0flu.cc line 1357 for 830 seconds the semaphore 这种类型的实际上一看等待点就知道这玩意是clean线程,稍微翻一下代码就知道这里是在做flush list的刷盘。通常刷盘的时候会获取page rwlock(sx类型)

--Thread 140579717510912 has waited at btr0pcur.h line 656 for 613 seconds the semaphore 这种类型的实际上就是正常的用户session,在对page进行访问或者修改的时候需要page rwlock(x/s类型)。

那么我们的redo日志系统卡住前后的几个lsn代表什么意思呢?如下:

Log written up to            20600471237     
Log flushed up to            20600471237
Added dirty pages up to      20598368792
Pages flushed up to          20598368792
  • Log written up to :这实际上是log writer线程写入到的redo的lsn位,在log_files_write_buffer函数内部更改,当然log writer是不断地进行recent write数组,然后不断地写入到redo。对应log.write_lsn.load()。

  • Log flushed up to:这实际上是log flusher线程刷盘到的redo的lsn位点,在log_flush_lown函数内部更改。对应 log.flushed_to_disk_lsn.load()。

  • Added dirty pages up to:这实际上在8.0.16/8.0.18是由log closer线程更新的,但是8.0.22对log closer线程做了删除,直接由用户线程自己负责。主要是查看推进的recent close数组的位点。对应就是log.recent_closed.tail()变量。而recent close数组作为clean线程和用户线程(8.0.22之前还有log closer线程)之间同步信息,我们很容易发现clean线程在根据recent close数组推进的结果进行刷脏参考函数page_cleaner_flush_pages_recommendation的开头。

  • Pages flushed up to:这实际上又log checkpoint线程更新,在进行进行检查点之前,会进行可以进行检查点的位置,那么这个位置必须是已经写了脏数据的位点,从计算的方式来看主要是应该是获取各个buffer pool上flush list最老的那个page,那么就是当前脏叶刷新的位点,但是有一些特别的计算函数log_compute_available_for_checkpoint_lsn

我们看到一个特别的现象就是Log flushed up to - Added dirty pages up to 大概不就是2M的空间,我印象中recent_closed数组的最大值就是2M,因此是不是说明recent_closed已经满了,但是log closer线程不做推进了。如果是这种情况也很容模拟,我只需要用gdb的挂起线程的功能,将log closer挂起即可,我随后进行了测试确实现象一模一样。这也很容易理解,如果redo刷盘功能停止,那么MTR的提交必然会受到堵塞,而我们page rwlock在MTR提交的时候释放,所以hang住很容易理解。那么是不是有BUG呢,当然版本比较老,如果有这个问题应该会由爆出来,因此用 log closer BUG mysql为关键字好像并没有找到相关的BUG。

三、再次分析

前面考虑的是recent_closed数组已满的情况,还会不会是recent_closed数组根本就是空的呢,我随后查看log closer问题时候的stack,发现是正常的等待状态,因此recent_closed数组为空的可能性就很大了。然后稍微看看MTR提交的时候关于recent_closed的更改前会判断recent_closed是否有足够的空间,如果这里出现问题,那么后面的recent_closed数组更新和将脏块挂入到flush list就不会做,那么log_closer线程自然会在推进完最后一次recent_closed数组后,因为无事可做而挂起。代码很简单就是下面这点:7edf9c957154c256c3ddbee0eca73112.png

然后呢我以log_wait_for_space_in_log_recent_closed函数为关键字寻找BUG,真还有如下:

  • https://bugs.mysql.com/bug.php?id=96615

看提交者的描述这种问题就会导致 log closer无事可做而挂起,原因是在等待空闲recent_closed数组空间的时候用的不是原子时钟,如果修改系统时间可能会出现这个问题。官方也没说修复这个问题,最后的回复如下:0db26432e843a444a174c4dbe6efca19.png

看来真的不能随便更改系统时间,非原子时钟问题,可能导致某些该唤醒的不能唤醒。这回导致系统直接hang住。

可能这样描述比较难理解,我用一个图来表示吧,因为涉及的东西比较多。注意了,这里不是说的事务提交,是MTR的提交,实际上我们的redo是一直在做写入操作的,MTR的提交和后台线程之间是异步的。但是一旦涉及到事务提交,那么双1的情况下就必须要保证redo 刷盘,那么到底异步的这些操作到底刷盘没有,那就需要去额外的确认操作,如果还没刷盘那就等,这个由我们的log_writer_notifier/log_flush_notifier线程介入,却确认和反馈给用户线程。但是这个BUG里不涉及,红色部分就是问题所在点,

a62aeb91ccff99f9e08bccfe60d2e07c.png
未命名文件.png

这篇关于MySQL:修改系统时钟会导致数据库hang住吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/241277

相关文章

MySQL MCP 服务器安装配置最佳实践

《MySQLMCP服务器安装配置最佳实践》本文介绍MySQLMCP服务器的安装配置方法,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录mysql MCP 服务器安装配置指南简介功能特点安装方法数据库配置使用MCP Inspector进行调试开发指

mysql中insert into的基本用法和一些示例

《mysql中insertinto的基本用法和一些示例》INSERTINTO用于向MySQL表插入新行,支持单行/多行及部分列插入,下面给大家介绍mysql中insertinto的基本用法和一些示例... 目录基本语法插入单行数据插入多行数据插入部分列的数据插入默认值注意事项在mysql中,INSERT I

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

MySQL 衍生表(Derived Tables)的使用

《MySQL衍生表(DerivedTables)的使用》本文主要介绍了MySQL衍生表(DerivedTables)的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学... 目录一、衍生表简介1.1 衍生表基本用法1.2 自定义列名1.3 衍生表的局限在SQL的查询语句select

MySQL 横向衍生表(Lateral Derived Tables)的实现

《MySQL横向衍生表(LateralDerivedTables)的实现》横向衍生表适用于在需要通过子查询获取中间结果集的场景,相对于普通衍生表,横向衍生表可以引用在其之前出现过的表名,本文就来... 目录一、横向衍生表用法示例1.1 用法示例1.2 使用建议前面我们介绍过mysql中的衍生表(From子句