Linux Kdump和Crash工具

2024-01-04 19:44
文章标签 工具 linux crash kdump

本文主要是介绍Linux Kdump和Crash工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kdump

Kdump是一种基于kexec的Linux内核崩溃捕获机制,简单来说系统启动时会预留一块内存,当系统崩溃调用命令kexec(kdump kernel)在预留的内存中启动kdump内核,

该内核会将此时内存中的所有运行状态和数据信息收集到一个coredump文件中以便后续分析调试。

开启kdump

1. 设置crashkernel预留内存大小
[root@localhost ~]$ cat /etc/default/grub
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=256M rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"

修改crashkernel的大小,我的系统内存是1G,保留了256M,注意预留内存大小,过小会导致生成coredump文件失败(不知道设置多少时,可以尝试每次增加128M)

修改后还需重新生成grub配置文件,重启系统才能生效

[vagrant@localhost ~]$ grub2-mkconfig -o /boot/grub2/grub.cfg
[vagrant@localhost ~]$ reboot
2. 修改kdump默认配置/etc/kdump.conf

centos7 默认已安装kdump,根据需要修改默认配置

[root@localhost ~]$ vi /etc/kdump.conf
path /var/crash #指定coredump文件存储位置
core_collector makedumpfile -c -l --message-level 1 -d 31 #增加-c参数,代表压缩coredump文件
default reboot #生成coredump后,重启系统
3. 开启kdump服务
systemctl start kdump.service //启动kdump
systemctl enable kdump.service //设置开机启动
4. 测试kdump功能 检查kdump是否开启成功
[root@localhost ~]# service kdump status
Redirecting to /bin/systemctl status kdump.service
● kdump.service - Crash recovery kernel armingLoaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)Active: active (exited) since Wed 2022-11-16 10:48:09 CST; 18s agoProcess: 1342 ExecStart=/usr/bin/kdumpctl start (code=exited, status=0/SUCCESS)Main PID: 1342 (code=exited, status=0/SUCCESS)CGroup: /system.slice/kdump.service
5. 手动触发crash
[root@cloud ~]# echo 1 > /proc/sys/kernel/sysrq ; echo c > /proc/sysrq-trigger
6. 查看生成的crash文件
[root@localhost ~]# ls /var/crash/
127.0.0.1-2022-11-16-11:11:43

crash解析数据原理

crash是工具,用于实现很多命令和解析方法,vmcore提供内存真实数据,vmlinux提供内核符号表,里面存了大量的全局变量地址和数据结构原理和代码等。 crash 根据你输入的命令去vmlinux中查找符号和地址,再去vmcore里面对应的位置获取真实数据,这样解析就完成了。

crash /var/crash/127.0.0.1-2022-11-16-11\:11\:43/vmcore /usr/src/kernels/linux-3.10.0-1160.71.1.el7/kernel/

常用命令和分析方法

1 bt 查看异常时的堆栈

堆栈执行的函数顺序是由大到小,#16是最开始执行的系统调用,一般#0是切换到crashkernel的执行。重点关注#10这个位置,打印出很多寄存器的地址, 标准的信息是 exception RIP表示出问题时候执行的指令。

crash> bt
PID: 2775   TASK: ffff892a78d0e180  CPU: 0   COMMAND: "bash"#0 [ffff892a78377ae0] machine_kexec at ffffffffa5663674#1 [ffff892a78377b40] __crash_kexec at ffffffffa571ce12#2 [ffff892a78377c10] crash_kexec at ffffffffa571cf00#3 [ffff892a78377c28] oops_end at ffffffffa5d6c758#4 [ffff892a78377c50] no_context at ffffffffa5d5aa7e#5 [ffff892a78377ca0] __bad_area_nosemaphore at ffffffffa5d5ab15#6 [ffff892a78377cf0] bad_area_nosemaphore at ffffffffa5d5ac86#7 [ffff892a78377d00] __do_page_fault at ffffffffa5d6f6b0#8 [ffff892a78377d70] do_page_fault at ffffffffa5d6f915#9 [ffff892a78377da0] page_fault at ffffffffa5d6b758[exception RIP: sysrq_handle_crash+22]RIP: ffffffffa5a61bf6  RSP: ffff892a78377e58  RFLAGS: 00010246RAX: ffffffffa5a61be0  RBX: ffffffffa62e4c60  RCX: 0000000000000000RDX: 0000000000000000  RSI: ffff892a7c613898  RDI: 0000000000000063RBP: ffff892a78377e58   R8: ffffffffa65e38bc   R9: 6873617263206120R10: 0000000000000726  R11: 0000000000000725  R12: 0000000000000063R13: 0000000000000000  R14: 0000000000000004  R15: 0000000000000000ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
#10 [ffff892a78377e60] __handle_sysrq at ffffffffa5a6241d
#11 [ffff892a78377e90] write_sysrq_trigger at ffffffffa5a62888
#12 [ffff892a78377ea8] proc_reg_write at ffffffffa58b7f30
#13 [ffff892a78377ec8] vfs_write at ffffffffa58410a0
#14 [ffff892a78377f08] sys_write at ffffffffa5841ebf
#15 [ffff892a78377f50] system_call_fastpath at ffffffffa5d74ddbRIP: 00007f6e64767ba0  RSP: 00007ffcaed61bb8  RFLAGS: 00000246RAX: 0000000000000001  RBX: 0000000000000002  RCX: ffffffffffffffffRDX: 0000000000000002  RSI: 00007f6e6508c000  RDI: 0000000000000001RBP: 00007f6e6508c000   R8: 000000000000000a   R9: 00007f6e6507d740R10: 00007f6e6507d740  R11: 0000000000000246  R12: 00007f6e64a40400R13: 0000000000000002  R14: 0000000000000001  R15: 0000000000000000ORIG_RAX: 0000000000000001  CS: 0033  SS: 002b

此时找到rip 我们可以找到rip的值dis -rl ffffffffa5a61bf6,执行命令:

dis -rl ffffffffa5a61bf6 dis是查看源码的命令

rip是最后一行:movb $0x1,0x0 表示把数字1赋值到地址0,地址0系统会判断为空指针,所以产生了panic,除此之外查看bt的打印,上面有write_sysrq_trigger函数,说明是我们手动echo c写sysrq-trigger触发的。

2 ps,log,set

ps:查看当前有哪些进程

log:查看系统日志

set:切换调试的进程上下文,比如ps查看一个进程,需要查看其他进程的上下文,set pid切换。

files:查看当前进程打开的文件

vm:当前进程使用的虚拟内存,VMA代表 vm_area_struct

参考文章:

  1. Centos7/RHEL7 开启kdump

这篇关于Linux Kdump和Crash工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/570395

相关文章

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Linux实现线程同步的多种方式汇总

《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

CnPlugin是PL/SQL Developer工具插件使用教程

《CnPlugin是PL/SQLDeveloper工具插件使用教程》:本文主要介绍CnPlugin是PL/SQLDeveloper工具插件使用教程,具有很好的参考价值,希望对大家有所帮助,如有错... 目录PL/SQL Developer工具插件使用安装拷贝文件配置总结PL/SQL Developer工具插

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存