Tidb duration 耗时异常上升案例

2023-10-28 06:10

本文主要是介绍Tidb duration 耗时异常上升案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:顾大伟

原文来源: https://tidb.net/blog/83e8d296

背景

360网盾Tidb集群拥有120TB 的存储量,运维复杂度很高,平时出问题排查比较困难,8月24号开发反馈业务阻塞了好久了,大约8.19号开始的,反馈消费很慢,业务最近只是例行删除了几T数据,以往经验过几天就自己恢复了,影响不大,但是这次持续一周响应耗时还是逐步增加,排查分析最终通过调优Tikv 参数解决

=》 问题排查过程

看监控

开发反馈的业务阻塞监控,19号开始业务消费一直很慢,24号到达最高峰

image


查看80 duration 耗时占用达到几百ms,明显较高存在问题\

image


查看最近30天的TiDB-Statement OPS ,显示并没有明显的变化,说明业务确实没上新\

image


查看TIKV-Trouble-Shooting -Server is Busy\

image


看上去是49 这台机器相对负载比较高,登陆机器查看确实系统负载比较高,同时tikv 日志显示存在大量的[error-response] [err="Key is locked (will clean up) primary_lock,存在索引写写冲突,本身tikv 每个节点region 已经20多w,官方建议不超过每个tikv 3w,超过就会出各种奇葩问题,data容量达到4TB 以上,所以系统负载一直不低,没办法机器资源不够,目前一直在删数据中…继续看监控\

image


上面49节点显示commit log耗时达到2s以上,apply log 也很慢,说明Tikv 层面写入存在瓶颈,查看本节点region 个数并不存在超多现象,磁盘和cpu内存指标和其它机器一样,业务硬件问题,但是commit log 耗时严重,说明在二阶段提交的时候存在耗时严重问题,大概率和业务逻辑存在写写冲突有关系,但是目前tidb 4.x 默认是已经是悲观锁了已经很大程度降低这种情况了

版本差异
在 v3.0.8 版本之前,TiDB 默认采用乐观事务模型,在事务执行过程中并不会做冲突检测,而是在事务最终 COMMIT 提交时触发两阶段提交,并检测是否存在写写冲突。当出现写写冲突,并且开启了事务重试机制,则 TiDB 会在限定次数内进行重试,最终重试成功或者达到重试次数上限后,会给客户端返回结果。因此,如果 TiDB 集群中存在大量的写写冲突情况,容易导致集群的 Duration 比较高。

另外在 v3.0.8 及之后版本默认使用悲观事务模式,从而避免在事务提交的时候因为冲突而导致失败,无需修改应用程序。悲观事务模式下会在每个 DML 语句执行的时候,加上悲观锁,用于防止其他事务修改相同 Key,从而保证在最后提交的 prewrite 阶段不会出现写写冲突的情况。

②慢日志分析

发现大量的insert 耗时超过10s,主要耗时在prewrite 阶段和commit 阶段,这也和监控显示基本相符

image


③ 根据监控现象查询官方文档和asktug

https://docs.pingcap.com/zh/tidb/stable/tidb-troubleshooting-map

对照官方建议的参数调优,调整[raftstore] raft-max-inflight-msgs =2048 来增大raft的滑动窗口大小,Raft 本身是有流控机制的,当达到限制的时候会导致commit log 放缓,延时增高,默认256,所以尝试增加来看看效果

指定节点reload TIKV 参数

tiup cluster reload tidb_shbt_01 -R tikv -N xxxx

恰巧周五晚上,修改完成后,看上去duration 在逐渐降低,周末两天观察
周一业务反馈已经完全恢复了?,监控80 duation 耗时确实显著下降了
image
该集群同时存在大量的唯一索引写写冲突后期经过优化insert 耗时也明显提升,同时经过升级为5.7.25-TiDB-v5.0.4 后,整体集群性能提升了不止一个档次,所以建议大家及时升级到5.x的稳定版,对“内功”确实有很大提升,目前的duration 监控如下

image

总结:

 感谢pingcap 苏丹老师在问题处理中提供的帮助,给我提供了一些问题处理思路,通过类似次问题处理,更加熟悉了Tidb,对使用运维Tidb 更有信心

这篇关于Tidb duration 耗时异常上升案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/TiDBer/article/details/126523359
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/291226

相关文章

Java内存区域与内存溢出异常的详细探讨

《Java内存区域与内存溢出异常的详细探讨》:本文主要介绍Java内存区域与内存溢出异常的相关资料,分析异常原因并提供解决策略,如参数调整、代码优化等,帮助开发者排查内存问题,需要的朋友可以参考下... 目录一、引言二、Java 运行时数据区域(一)程序计数器(二)Java 虚拟机栈(三)本地方法栈(四)J

解决Java异常报错:java.nio.channels.UnresolvedAddressException问题

《解决Java异常报错:java.nio.channels.UnresolvedAddressException问题》:本文主要介绍解决Java异常报错:java.nio.channels.Unr... 目录异常含义可能出现的场景1. 错误的 IP 地址格式2. DNS 解析失败3. 未初始化的地址对象解决

python利用backoff实现异常自动重试详解

《python利用backoff实现异常自动重试详解》backoff是一个用于实现重试机制的Python库,通过指数退避或其他策略自动重试失败的操作,下面小编就来和大家详细讲讲如何利用backoff实... 目录1. backoff 库简介2. on_exception 装饰器的原理2.1 核心逻辑2.2

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

如何合理管控Java语言的异常

《如何合理管控Java语言的异常》:本文主要介绍如何合理管控Java语言的异常问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、Thorwable类3、Error4、Exception类4.1、检查异常4.2、运行时异常5、处理方式5.1. 捕获异常

MySQL 复合查询案例详解

《MySQL复合查询案例详解》:本文主要介绍MySQL复合查询案例详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录基本查询回顾多表笛卡尔积子查询与where子查询多行子查询多列子查询子查询与from总结合并查询(不太重要)union基本查询回顾查询

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

Java Stream流使用案例深入详解

《JavaStream流使用案例深入详解》:本文主要介绍JavaStream流使用案例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录前言1. Lambda1.1 语法1.2 没参数只有一条语句或者多条语句1.3 一个参数只有一条语句或者多

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J