定位分析RCU stall问题

2023-12-09 23:29
文章标签 分析 问题 定位 rcu stall

本文主要是介绍定位分析RCU stall问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用RCU_CPU_STALL_CPUTIME

=====================

在编译内核时打开CONFIG_RCU_CPU_STALL_CPUTIME=y或者在启动参数中增加
rcupdate.rcu_cpu_stall_cputime=1, 这样在发生RCU STALL告警时就会有下面附加信息:

  rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624         45            0rcu: cputime:       69          1         2425   ==> 2500(ms)

这样统计信息是在采样周期中收集的。其中number行分别是发生stalled的cpu上的硬中断,软中断,和上下文的切换次数
cputime行的前三列分别是硬中断,软中断和任务消耗的cpu时间,单位为ms.最后一个数字是统计的周期时间(ms).
因为用户态的任务通常不会引起RCU CPU stalls,所以任务通常是内核任务,这也是为什么只统计system cpu的原因.

采样周期如下图所示::

  |<------------first timeout---------->|<-----second timeout----->||<--half timeout-->|<--half timeout-->|                          ||                  |<--first period-->|                          ||                  |<-----------second sampling period---------->||                  |                  |                          |snapshot time point    1st-stall                  2nd-stall

下面展示4种典型的场景:

  • 有关闭中断后的CPU循环
 rcu:          hardirqs   softirqs   csw/systemrcu:  number:        0          0            0rcu: cputime:        0          0            0   ==> 2500(ms)

因为中断被关闭,因此没有中断和上下文切换。同时cpu time是在中断处理中统计的,所以也是0.
这处场景通常还会有 "(0 ticks this GP)" 打印出来.

  • 有关闭下半部后的CPU循环.

    这种情况和第1种情况类似,但是硬中断和上下文切换是有统计的:

 rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624          0            0rcu: cputime:       49          0         2446   ==> 2500(ms)

softirqs是0说明软中断被禁用,通常通过local_bh_disable().

  • 有关闭抢占情况下的CPU循环.

    这种情况下,只有上下文切换次数为0:

 rcu:          hardirqs   softirqs   csw/systemrcu:  number:      624         45            0rcu: cputime:       69          1         2425   ==> 2500(ms)
  • 没有循环操作,但是有大量的硬件和软中断.
 rcu:          hardirqs   softirqs   csw/systemrcu:  number:       xx         xx            0rcu: cputime:       xx         xx            0   ==> 2500(ms)

这种情况下,硬中断和软中断不为0,但是上下文切换次数和sys cpu时间为0
软中断也有可能为0,比如在硬中断处理里有cpu spinning.
如果遇到此种情况的CPU stall. 可以进一步查看/proc/interrupts或者通过代码trace每种中断,可以参考show_interrupts().

这篇关于定位分析RCU stall问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/475418

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

解决JSONField、JsonProperty不生效的问题

《解决JSONField、JsonProperty不生效的问题》:本文主要介绍解决JSONField、JsonProperty不生效的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录jsONField、JsonProperty不生效javascript问题排查总结JSONField

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

springboot加载不到nacos配置中心的配置问题处理

《springboot加载不到nacos配置中心的配置问题处理》:本文主要介绍springboot加载不到nacos配置中心的配置问题处理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录springboot加载不到nacos配置中心的配置两种可能Spring Boot 版本Nacos