一图梳理性能问题分析排查思路

2024-03-25 16:20

本文主要是介绍一图梳理性能问题分析排查思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

性能问题分析地毯式排查方法

对于平台提供方来说性能问题协助排查的起点是日志,终点是业务。而研发人员理应是性能问题的第一负责人,多数性能问题与业务的使用方式相关。

性能相关问题及疑难杂症的摸排定位,技术人员不怕bug,怕的是有问题现象却找不到原因。性能问题往往就是没有变更、没有警告、没有报错的三无问题,本文即是一个性能问题的检查单式的分析思路和常用工具方法,用于发现性能问题背后潜伏的罪魁祸首,大纲如图所示。

(获取高清图和xmind源文件方式见文末~)

排查思路讲解

现代复杂的信息技术及大数据分布式环境中,性能问题的分析排查是一个系统性的工程,涉及到多个层面和技术领域的深度协同。因此下面的分类并不是独立的,而是相关交织的线索。

日志

首先,日志作为系统运行过程中的“黑匣子”,记录了系统运行时的各项状态和事件信息,是定位性能瓶颈的关键线索源。通过细致地阅读和分析应用、数据库、操作系统等多维度的日志数据,我们可以发现潜在的问题,如慢查询、阻塞操作、资源争抢等,从而对症下药。

在大数据环境的任务日志要关注的是:

  • 应用侧:主程序日志、节点日志、打印信息。
  • 服务侧:Master服务、Slave服务、监控系统
  • 慢查询日志、慢写入日志(类数据库服务)
  • 上下游服务日志(大数据生态关联)
  • GC日志(在环境章节)
  • 系统日志(在环境章节)
  • 特殊现象考虑组件Bug(查社区issue)

机器

其次,硬件(机器)层面的性能状况也不容忽视。CPU使用率、内存占用、磁盘I/O、网络吞吐量等硬件指标直接影响着系统的整体性能表现。例如,若服务器的CPU长期处于高位,或者磁盘I/O出现瓶颈,都可能导致应用程序响应速度下降,引发性能问题。因此,定期对硬件资源进行监控与调优,对于排查性能瓶颈至关重要。

看四大金刚(软件运行于硬件之上,硬件的小问题都可能给软件带来巨大的影响):

  1. 硬盘:了解构成、确认空间、查看速率使用率、检测坏盘、排查常见的异常
  2. 网络:看端口占用、看延迟、抖动、丢包信息、看流量、趋势和收发拒绝情况、看链路、TCP连接数
  3. 内存:看构成、缓存分布、Top应用、Top用户、内存泄露?
  4. CPU:看型号、NUMA分区、看Top、使用率、负载、排查是否中病毒?

环境

再者,软件环境也是影响性能的重要因素,包括操作系统配置、JVM设置、特定硬件版本等。例如,不当的线程池大小配置可能导致并发处理能力受限;而低效的SQL语句或存在内存泄漏的代码则会持续消耗系统资源,降低系统性能。故深入研究并优化软件环境,能够有效提升系统的稳定性和响应速度。

环境主要看的是:

  • JDK:版本类型、使用jdk自带的分析工具进行系统排查、gc日志交给GCeasy、Dump文件交给heapio、怀疑bug
  • OS:确认版本、环境变量、查看大部分系统日志、系统配置、进程情况
  • 注意系统架构的特殊性、差异

业务

最后,业务侧的需求变化和负载特性同样是引发性能问题的常见原因。例如,在高峰期用户请求量陡增导致系统超负荷运转,或是新功能上线后对系统资源需求激增,都可能诱发性能瓶颈。因此,从业务角度出发,合理预估和规划系统容量,结合实际业务场景进行压力测试与性能调优,才能确保系统在各种复杂业务场景下都能保持高效稳定的运行。

  • 观察任务运行的所有参数、特有参数是否异常、用户自定义参数的来龙去脉
  • 询问业务流程、知晓数据链路、了解历史任务运行情况、其他业务线是否正常?
  • 探查变迁情况,有没遗漏的变动、有无被动修改(被关联组件修改、被关联业务修改)、分析相关代码

上述每一模块的内容较多,另文展开叙述!


与君共赏

《江城子·密州出猎》
(宋·苏轼) 
老夫聊发少年狂,左牵黄,右擎苍。 
锦帽貂裘,千骑卷平冈。 
为报倾城随太守,亲射虎,看孙郎。 
酒酣胸胆尚开张,鬓微霜,又何妨! 
持节云中,何日遣冯唐? 
会挽雕弓如满月,西北望,射天狼。

欢迎关注我的公众号[1024点线面]!

关注后回复"性能分析"获取高清原图和可编辑的xmind源文件。

这篇关于一图梳理性能问题分析排查思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/845558

相关文章

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

解决JSONField、JsonProperty不生效的问题

《解决JSONField、JsonProperty不生效的问题》:本文主要介绍解决JSONField、JsonProperty不生效的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录jsONField、JsonProperty不生效javascript问题排查总结JSONField

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地