一图梳理性能问题分析排查思路

2024-03-25 16:20

本文主要是介绍一图梳理性能问题分析排查思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

性能问题分析地毯式排查方法

对于平台提供方来说性能问题协助排查的起点是日志,终点是业务。而研发人员理应是性能问题的第一负责人,多数性能问题与业务的使用方式相关。

性能相关问题及疑难杂症的摸排定位,技术人员不怕bug,怕的是有问题现象却找不到原因。性能问题往往就是没有变更、没有警告、没有报错的三无问题,本文即是一个性能问题的检查单式的分析思路和常用工具方法,用于发现性能问题背后潜伏的罪魁祸首,大纲如图所示。

(获取高清图和xmind源文件方式见文末~)

排查思路讲解

现代复杂的信息技术及大数据分布式环境中,性能问题的分析排查是一个系统性的工程,涉及到多个层面和技术领域的深度协同。因此下面的分类并不是独立的,而是相关交织的线索。

日志

首先,日志作为系统运行过程中的“黑匣子”,记录了系统运行时的各项状态和事件信息,是定位性能瓶颈的关键线索源。通过细致地阅读和分析应用、数据库、操作系统等多维度的日志数据,我们可以发现潜在的问题,如慢查询、阻塞操作、资源争抢等,从而对症下药。

在大数据环境的任务日志要关注的是:

  • 应用侧:主程序日志、节点日志、打印信息。
  • 服务侧:Master服务、Slave服务、监控系统
  • 慢查询日志、慢写入日志(类数据库服务)
  • 上下游服务日志(大数据生态关联)
  • GC日志(在环境章节)
  • 系统日志(在环境章节)
  • 特殊现象考虑组件Bug(查社区issue)

机器

其次,硬件(机器)层面的性能状况也不容忽视。CPU使用率、内存占用、磁盘I/O、网络吞吐量等硬件指标直接影响着系统的整体性能表现。例如,若服务器的CPU长期处于高位,或者磁盘I/O出现瓶颈,都可能导致应用程序响应速度下降,引发性能问题。因此,定期对硬件资源进行监控与调优,对于排查性能瓶颈至关重要。

看四大金刚(软件运行于硬件之上,硬件的小问题都可能给软件带来巨大的影响):

  1. 硬盘:了解构成、确认空间、查看速率使用率、检测坏盘、排查常见的异常
  2. 网络:看端口占用、看延迟、抖动、丢包信息、看流量、趋势和收发拒绝情况、看链路、TCP连接数
  3. 内存:看构成、缓存分布、Top应用、Top用户、内存泄露?
  4. CPU:看型号、NUMA分区、看Top、使用率、负载、排查是否中病毒?

环境

再者,软件环境也是影响性能的重要因素,包括操作系统配置、JVM设置、特定硬件版本等。例如,不当的线程池大小配置可能导致并发处理能力受限;而低效的SQL语句或存在内存泄漏的代码则会持续消耗系统资源,降低系统性能。故深入研究并优化软件环境,能够有效提升系统的稳定性和响应速度。

环境主要看的是:

  • JDK:版本类型、使用jdk自带的分析工具进行系统排查、gc日志交给GCeasy、Dump文件交给heapio、怀疑bug
  • OS:确认版本、环境变量、查看大部分系统日志、系统配置、进程情况
  • 注意系统架构的特殊性、差异

业务

最后,业务侧的需求变化和负载特性同样是引发性能问题的常见原因。例如,在高峰期用户请求量陡增导致系统超负荷运转,或是新功能上线后对系统资源需求激增,都可能诱发性能瓶颈。因此,从业务角度出发,合理预估和规划系统容量,结合实际业务场景进行压力测试与性能调优,才能确保系统在各种复杂业务场景下都能保持高效稳定的运行。

  • 观察任务运行的所有参数、特有参数是否异常、用户自定义参数的来龙去脉
  • 询问业务流程、知晓数据链路、了解历史任务运行情况、其他业务线是否正常?
  • 探查变迁情况,有没遗漏的变动、有无被动修改(被关联组件修改、被关联业务修改)、分析相关代码

上述每一模块的内容较多,另文展开叙述!


与君共赏

《江城子·密州出猎》
(宋·苏轼) 
老夫聊发少年狂,左牵黄,右擎苍。 
锦帽貂裘,千骑卷平冈。 
为报倾城随太守,亲射虎,看孙郎。 
酒酣胸胆尚开张,鬓微霜,又何妨! 
持节云中,何日遣冯唐? 
会挽雕弓如满月,西北望,射天狼。

欢迎关注我的公众号[1024点线面]!

关注后回复"性能分析"获取高清原图和可编辑的xmind源文件。

这篇关于一图梳理性能问题分析排查思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/845558

相关文章

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT