伴鱼数据库之慢日志系统

2023-10-09 00:58

本文主要是介绍伴鱼数据库之慢日志系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 背景

伴鱼少儿英语是目前飞速成长的互联网在线英语教育品牌之一,特别在疫情这段时间内,业务量增长近3-4倍。这期间,伴鱼慢日志系统对于帮助我们及时发现数据库性能问题、预防数据库性能风险和维护线上服务稳定性起到了很大的作用。

目前,伴鱼有10套TiDB数据库,20+套MongoDB数据库,近200+数据库实例。日常数据库性能问题处理,需要分析数据库慢日志,由于慢日志分散在多台机器,我们面临日志查询/分析/统计等各种不便。因此,我们设计了伴鱼慢日志系统并满足以下几个要求:

  • 慢日志集中准实时收集

  • 日志查询/分析/统计可视化

  • 慢日志定时报表

  • 慢日志灵活告警

下面详细介绍下伴鱼慢日志系统设计以及系统给我们带来的实实在在的效果。

2. 慢日志系统详解

我们认为数据库的性能问题,绝大部分原因都是由慢SQL导致的,当然像数据库bug、业务异常流量等情况,在伴鱼还是比较少见的。所以,伴鱼慢日志系统主要围绕如何准实时收集分布式TiDB的慢日志、如何快速的做分析统计、定时向业务推送慢日志报表以及如何灵活的告警等方面进行设计。

2.1 准实时集中收集慢日志

我们采用了业界比较成熟的开源日志采集、分析、存储和展示架构,如下图所示。

其中,每个组件的功能如下:

  • filebeat负责增量收集TiDB产生的慢日志,由于filebeat比较轻量,对线上性能基本无影响。

  • kafka负责缓冲存储filebeat采集的原始日志

  • logstash负责把原始日志解析成我们想要的键值对

  • es负责存储经过logstash加工后的数据

  • kibana负责数据的查询/分析/统计的可视化

filebeat采集TiDB的慢日志配置,如下图所示。

原始慢日志经过filebeat采集阶段简单处理后存储到kafka,原始慢日志如下图所示。

存储到kafka的慢日志部分内容格式,如下图所示。

日志存储到kafka后,logstash负责读取其中的慢日志并进行解析,转换成我们想要的kv键值对,如下图所示。

对于TiDB的慢日志,我们重点关注慢日志中的某些字段,比如:

index_name: 语句执行过程中是否用到索引
DB:表示执行语句时使用的database
query_time:表示执行这个语句花费的时间
total_keys:表示Coprocessor扫过的key的数量
process_keys:表示Coprocessor处理的key的数量
sql:执行的sql语句

解析后的数据最终存储到到es,供kibana查询、分析以及统计使用。

2.2 慢日志查询分析统计的可视化

慢日志通过logstash解析入到es后,通过kibana,我们可以把解析的字段作为查询和聚合的条件,很方便的对慢日志数据进行分析统计。

比如我们经常有如下操作:

  • 5分钟内,慢请求分别按照db和table聚合

  • 5分钟内,Process_keys大于5000的慢请求

  • 5分钟内,query_time大于200ms的请求

通过近似数据库表查询操作,我们能对慢日志进行多维度的分析,及时探究线上的性能问题。当然操作远不止这些,研发同学还可以在kibana平台上定制所属业务db慢日志的趋势图、配置告警等。

2.3 定时发送慢日志报表

在伴鱼,通常一个服务对应一个DB,并且要求db名和服务名相同,每个服务有明确的业务负责人(owner) 和服务等级以及所属的具体的业务组,如下图所示。所以根据DB,可以将慢日志告警和报表推送给具体的业务负责人。

基于加工后的慢日志数据,从多种维度,比如集群、库、表、操作类型、慢日志数量、执行总时间、平均响应时间以及最大耗时等维度对慢日志进行分析统计,并生成报表定时发送给研发同学。

2.4 慢日志灵活告警

在伴鱼,一个db对应一个服务,所以告警都是在特定db下设置规则。目前,我们告警时间粒度默认是一分钟(粒度可以灵活控制),主要基于以下三类规则进行告警。

  • 某个db下的请求时间达到100ms且慢日志达到一定数量则告警

  • 某个db下的请求时间达到500ms且慢日志达到一定数量则告警

  • 某个db下的请求Process_keys大于5000且慢日志达到一定数量则告警

告警规则的设置不是一蹴而就的,需要根据不同的业务场景,dba和研发不断的调整,最终达到一个比较合理的阀值。

3. 慢日志系统给带来的收益

目前,我们10个生产TiDB集群,有6个核心集群请求过万,如下图所示。

慢日志系统主要给我们线上服务带来3个收益。

  • 响应延时低,6个请求过万核心集群,999线基本维持在16ms左右,如下图所示

  • 慢日志越来越少,tidb所有集群的慢日志(大于200ms),30分钟内,高峰期条数基本维持在1000以内

  • 故障少,除一次tidb优化器bug导致大表查询故障,影响线上近15分钟外。近半年没有tidb引发的线上故障。

4. 总结

目前,伴鱼慢日志系统在性能问题发现和预防数据库性能风险等方面发挥了很重要的作用。未来,我们将继续挖掘慢日志里的信息,丰富慢日志系统的功能,为伴鱼数据库保驾护航。

这篇关于伴鱼数据库之慢日志系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169190

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Golang 日志处理和正则处理的操作方法

《Golang日志处理和正则处理的操作方法》:本文主要介绍Golang日志处理和正则处理的操作方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录1、logx日志处理1.1、logx简介1.2、日志初始化与配置1.3、常用方法1.4、配合defer

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性