记一次排查线上频繁FullGC 过程

2023-10-13 20:30

本文主要是介绍记一次排查线上频繁FullGC 过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

记一次排查线上频繁FullGC 过程

    • 一、一段艰辛的排查过程
      • 1.突发告警
        • 1.1 新生代老年代情况:
        • 1.2 老年代GC情况
      • 2.紧急处理
      • 3.问题定位
        • 3.1 dump文件过大:
        • 3.2 如何分析:
        • 3.3 排查原因
        • 3.4 水落石出
      • 4.修复上线
    • 二、收获

一、一段艰辛的排查过程

记录一次生产环境频繁FullGC的排查过程,艰辛但收获满满;

1.突发告警

这是一个风和日丽的下午,已经疲惫不堪的我正日常码代码,突然收到JVM监控告警,进入监控大盘查看JVM情况:

1.1 新生代老年代情况:

在这里插入图片描述
图片截了一张最简化的出来,因为公司数据安全限制;

蓝色:新生代
棕黄色:老年代
从图线中可以看出,新生代是在某一时刻突然被打满的,这种情况猜测可能是产生了死循环、批量导出等问题;

1.2 老年代GC情况

在这里插入图片描述

图线呈阶梯递增趋势,表明频繁 FullGC,但问题就在,频繁FullGC而GC不掉对象,说明这些对象还存在Roots;

2.紧急处理

在公司的一条军规:先恢复,再定位;先恢复服务的可用,再来定位问题的原因;
我的服务是多节点部署,通过公司网关做负载均衡:

  1. 周知 PM下线 XX节点;
  2. 网关下线XX节点服务;
  3. 生成dump文件 jmap -dump:live,format=b,file=dump.hprof 进程号;
  4. 重启服务,恢复可用;

3.问题定位

登录服务器查看生成的 dump文件,大小有29G,面对的第一个问题来了;

3.1 dump文件过大:

分析dump文件,是需要内存来支撑的,而29G的内存就算拿到本地电脑也无法分析,所以我找运维同学申请了一台新服务器(130G内存),将29G的dump压缩,压缩zip包之后大概5G,发送到新服务器;

3.2 如何分析:

1.下载Linux版本的MAT
2.下载后解压,进到MAT目录中,执行:

修改MAT JVM参数
MemoryAnalyzer.ini 调整堆大小可以容纳你的dump文件的大小
./ParseHeapDump.sh jmap.info org.eclipse.mat.api:suspects org.eclipse.mat.api:overview org.eclipse.mat.api:top_components

3.上述命令我大概等了2个小时,生成了三个压缩包文件:

jmap_Leak_Suspects.zip
jmap_System_Overview.zip
jmap_Top_Components.zip

在生成报告的这2个小时的时间里,排查链路追踪日志、查看网关请求日志、都没有查到可疑问题;将所有的希望都寄托在了报告上;

3.3 排查原因

终于生成了报告:
在这里插入图片描述

报告中提示有一个问题,占用了23.4G内存,下面的问题怀疑也没有给也直接的原因,点击See stacktrace:

在这里插入图片描述

栈信息中可以看出,是调用系统中的一个Excel转PDF的工具导致的;aspose是一个专门做文档转换的一个工具

3.4 水落石出

既然是Excel转换PDF导致的,那就查下当前时间段系统中记录的上传日志,有一个时间点比较符合的Excel,拿到上传到OSS的链接,下载到本地(文件非秘密文档)跑单测,本地运行报OOM,果然是这个文件的问题;
原因: 用户上传的Excel对多行整列加了底色,比如这种:
在这里插入图片描述
然后导致aspose解析时,认为有底色的列就有数据,造成一直FullGC;

4.修复上线

问题定位到了,和PM确认后,下线了Excel转换PDF的功能;
本来打算限制行和列的个数,后来看系统上传的Excel格式乱七八糟,竟然也有几万行的;

二、收获

我的系统上游对接了很多的业务系统,出现问题后收到各方反馈,一方面顶住压力,另一方面及时向各级领导反馈原因;
整个排查过程,艰辛,未接触过 JVM导致的生产问题,但整个过程下来,也学到了非常多的知识;也感谢同事的相助;

这篇关于记一次排查线上频繁FullGC 过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/205691

相关文章

Django HTTPResponse响应体中返回openpyxl生成的文件过程

《DjangoHTTPResponse响应体中返回openpyxl生成的文件过程》Django返回文件流时需通过Content-Disposition头指定编码后的文件名,使用openpyxl的sa... 目录Django返回文件流时使用指定文件名Django HTTPResponse响应体中返回openp

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一