Linux内存管理(七十二):Linux PSI 原理更新(v5.15)

2024-05-29 21:04

本文主要是介绍Linux内存管理(七十二):Linux PSI 原理更新(v5.15),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

源码基于:Linux 5.15

约定:

  • 芯片架构:ARM64
  • 内存架构:UMA
  • CONFIG_ARM64_VA_BITS:39
  • CONFIG_ARM64_PAGE_SHIFT:12
  • CONFIG_PGTABLE_LEVELS :3

0. 前言

本文是在之前《PSI 详解 v5.4》一文基础上,整理一下PSI 原理中的细节,包含 cgroup v2 关于PSI 的原理和使用。

参考:

PSI 详解 v5.4

PSI 指标

PSI 功能依赖 CONFIG_PSI,当该 config 没有使能,psi.c 是不会被编译到 image的。

1. PSI 中涉及的重要属性

本节主要梳理 PSI 中一些重要的变量、属性值,笔者习惯把重要的属性总结到最前文,阅读PSI 原理可以暂跳过此节。

1.1 psi_enable

kernel/sched/psi.c#ifdef CONFIG_PSI_DEFAULT_DISABLED
static bool psi_enable;
#else
static bool psi_enable = true;
#endif

静态全局变量 psi_enable 受限于 CONFIG_PSI_DEFAULT_DISABLED,默认该 config 不会使能,即 psi_enable 为 true。

另外,可以通过 cmdline 中属性 "psi=" 修改该值:

kernel/sched/psi.cstatic int __init setup_psi(char *str)
{return kstrtobool(str, &psi_enable) == 0;
}
__setup("psi=", setup_psi);

当 psi_enable 为false 时,PSI 全局控制变量 psi_disabled (static key) 会被置成 true:

kernel/sched/psi.cvoid __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}...
}

1.2 psi_period

kernel/sched/psi.c/* Sampling frequency in nanoseconds */
static u64 psi_period __read_mostly;

1.3 psi_cgroups_enabled

kernel/sched/psi.cDEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

该变量主要确认 cgroup 中是否启动了 PSI 功能,默认值为 true。

cgroup 模块通过在 cmdline 中设定 "cgroup_disable=" 属性来禁用功能,例如:

  • 设定 "cgroup_disable=cpuset" 来禁用 cpuset;
  • 设定 "cgroup_disable=pressure" 来禁用 PSI;

在 PSI 初始化 psi_init() 函数调用时,会确定 cgroup 模块是否禁用了 pressure,如果 cgroup 中禁用了 PSI,则 psi_cgroups_enabled 的值会被置为 false。

另外,与 Linux6.6 不同之处是,该变量在 Linux6.6 中定义时加上了 static:

static DEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

1.4 psi_system 

正常情况下,PSI 中通过 struct psi_group 结构体管理 PSI 中所有状态、数据、work 等信息。

psi_system 是 struct psi_group 结构体变量,用以管理系统 PSI 状态、数据、work 等信息。

kernel/sched/psi.cstatic DEFINE_PER_CPU(struct psi_group_cpu, system_group_pcpu);
struct psi_group psi_system = {.pcpu = &system_group_pcpu,
};

但,在 cgroup 中也可以实现PSI 局部管理,通过对 cpu.pressurememory.pressureio.pressure 等文件 write 操作注册 psi_trigger,实现对特定 cgroup 的资源瓶颈状态的监听和跟踪。

1.4 struct psi_group

include/linux/psi_types.hstruct psi_group {//avgs_work 数据同步锁struct mutex avgs_lock;/* Per-cpu task state & time tracking */struct psi_group_cpu __percpu *pcpu;/* Running pressure averages */u64 avg_total[NR_PSI_STATES - 1];//avgs_work的时间点u64 avg_last_update;u64 avg_next_update;//带有定时器的avgs_workstruct delayed_work avgs_work;/* Total stall times and sampled pressure averages */u64 total[NR_PSI_AGGREGATORS][NR_PSI_STATES - 1];unsigned long avg[NR_PSI_STATES - 1][3];//psimon 线程struct task_struct __rcu *poll_task;struct timer_list poll_timer;wait_queue_head_t poll_wait;atomic_t poll_wakeup;/* Protects data used by the monitor */struct mutex trigger_lock;//所有psi_trigger都存在链表中struct list_head triggers;//每个psi_states类型的psi_trigger 数量u32 nr_triggers[NR_PSI_STATES - 1];//统计poll_work 需要处理哪些psi_states类型的 triggeru32 poll_states;//记录poll_work 最小的周期u64 poll_min_period;/* Total stall times at the start of monitor activation */u64 polling_total[NR_PSI_STATES - 1];u64 polling_next_update;u64 polling_until;
};

2. PSI module 初始化

在module init 时调用 psi_proc_init() 进行 PSI 的初始化,创建了proc 虚拟文件目录 pressure,并在其下面创建了三个子文件:pressure/io、pressure/memory、pressure/cpu

与 Linux5.4 版本不同之处是,这些节点的创建是在  psi_enable 为true 条件下:

kernel/sched/psi.cstatic int __init psi_proc_init(void)
{if (psi_enable) {proc_mkdir("pressure", NULL);proc_create("pressure/io", 0, NULL, &psi_io_proc_ops);proc_create("pressure/memory", 0, NULL, &psi_memory_proc_ops);proc_create("pressure/cpu", 0, NULL, &psi_cpu_proc_ops);}return 0;
}
module_init(psi_proc_init);

更多关于 psi_enable  变量信息可以查看上文第 1.1 节。 

3. PSI 初始化 psi_init()

start_kernel()---->sched_init()---->psi_init()

与 Linux5.4 不同之处是,这里开始多了 cgroup 的控制,主要是通过控制变量 psi_cgroups_enabled (static key),默认为true。

void __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}if (!cgroup_psi_enabled())static_branch_disable(&psi_cgroups_enabled);psi_period = jiffies_to_nsecs(PSI_FREQ);group_init(&psi_system);
}

与 Linux6.6 不同之处是,当 psi_enable 为false 时,也会将 psi_cgroups_enabled 置为 false。

更多关于 psi_cgroups_enabledpsi_periodpsi_system 可以查看上文第 1.2 节。

3.1 group_init()

kernel/sched/psi.cstatic void group_init(struct psi_group *group)
{int cpu;for_each_possible_cpu(cpu)seqcount_init(&per_cpu_ptr(group->pcpu, cpu)->seq);//初始化avgs_work 的两个时间点group->avg_last_update = sched_clock();group->avg_next_update = group->avg_last_update + psi_period;//初始化带定时器的work,并指定处理函数为psi_avgs_work()INIT_DELAYED_WORK(&group->avgs_work, psi_avgs_work);//初始化avgs_work 数据同步的 avgs_lockkmutex_init(&group->avgs_lock);/* Init trigger-related members */atomic_set(&group->poll_wakeup, 0);mutex_init(&group->trigger_lock);//初始化psi_trigger listINIT_LIST_HEAD(&group->triggers);//初始化每个psi_states类型的psi_trigger 数量memset(group->nr_triggers, 0, sizeof(group->nr_triggers));//初始化poll_work 需要处理哪些psi_states类型的 triggergroup->poll_states = 0;//初始化poll_work 的时间间隔,对于psi_system 这个group只记录最小值group->poll_min_period = U32_MAX;memset(group->polling_total, 0, sizeof(group->polling_total));//初始化下一次poll_work触发的时间group->polling_next_update = ULLONG_MAX;group->polling_until = 0;//初始化poll_work的等待队列init_waitqueue_head(&group->poll_wait);timer_setup(&group->poll_timer, poll_timer_fn, 0);rcu_assign_pointer(group->poll_task, NULL);
}

4. psi_trigger_create()

该函数用以创建 psi_trigger,系统中两个地方会触发:

  • 写 /proc/pressure/* 文件
  • 写 /sys/fs/cgroup/*.pressure 文件

创建好的 psi_trigger 都会被存在对应的 psi_group 中,或是系统的 psi_system,或是 cgroup 中的psi_group。

另外,在第一次创建 psi_trigger 的时候会创建 task "psimon"与 Linux5.4 不同之处是,这里用 kthread_create() 直接创建 task_struct,而不再是 kthread_worker。

kernel/sched/psi.cstruct psi_trigger *psi_trigger_create(struct psi_group *group,char *buf, size_t nbytes, enum psi_res res)
{struct psi_trigger *t;enum psi_states state;u32 threshold_us;u32 window_us;if (static_branch_likely(&psi_disabled))   //psi 是否enablereturn ERR_PTR(-EOPNOTSUPP);if (sscanf(buf, "some %u %u", &threshold_us, &window_us) == 2)  //解析是否为写 some 数据state = PSI_IO_SOME + res * 2;else if (sscanf(buf, "full %u %u", &threshold_us, &window_us) == 2) //解析是否为写 full 数据state = PSI_IO_FULL + res * 2;elsereturn ERR_PTR(-EINVAL);   //其他数据都认为无效if (state >= PSI_NONIDLE)   //pis_states 不能超过PSI_NONIDLEreturn ERR_PTR(-EINVAL);if (window_us < WINDOW_MIN_US ||  //窗口时长设置在500ms 至 10swindow_us > WINDOW_MAX_US)return ERR_PTR(-EINVAL);/* Check threshold */if (threshold_us == 0 || threshold_us > window_us)  //检测阈值不能为0,也不能大于窗口时长return ERR_PTR(-EINVAL);t = kmalloc(sizeof(*t), GFP_KERNEL);  //创建一个psi_triggerif (!t)return ERR_PTR(-ENOMEM);t->group = group;   //记录psi_trigger的 groupt->state = state;   //记录psi_trigger的 psi_statest->threshold = threshold_us * NSEC_PER_USEC;  //记录psi_trigger的检测时间,us 单位t->win.size = window_us * NSEC_PER_USEC;      //记录psi_trigger的窗口时长,us 单位window_reset(&t->win, 0, 0, 0);t->event = 0;t->last_event_time = 0;init_waitqueue_head(&t->event_wait);mutex_lock(&group->trigger_lock);if (!rcu_access_pointer(group->poll_kworker)) { //psi 系统相当关键的地方,创建psimon 工作线程struct task_struct *task;task = kthread_create(psi_poll_worker, group, "psimon");if (IS_ERR(task)) {kfree(t);mutex_unlock(&group->trigger_lock);return ERR_CAST(task);}atomic_clear_bit(POLL_WAKEUP, &group->poll_wakeup);wake_up_process(task);rcu_assign_pointer(group->poll_task, task); //存放task到poll_task中}list_add(&t->node, &group->triggers);  //将新建的psi_trigger 存入group 中group->poll_min_period = min(group->poll_min_period,div_u64(t->win.size, UPDATES_PER_WINDOW)); //确认最新的poll 周期group->nr_triggers[t->state]++;    //计数当前psi 资源psi_trigger数量group->poll_states |= (1 << t->state);  //更新group 中资源状态mutex_unlock(&group->trigger_lock);return t;
}

 

4.1 psi_poll_worker()

该函数是 psimon 线程的执行函数,在 group->poll_wakup 被置为 POLL_WAKUP 或 线程停止时被唤醒,如果是 POLL_WAKEUP 唤醒则调用核心处理函数 psi_poll_work()

kernel/sched/psi.cstatic int psi_poll_worker(void *data)
{struct psi_group *group = (struct psi_group *)data;//设置psimon 的优先级sched_set_fifo_low(current);//等待唤醒,并执行psi_poll_work()while (true) {wait_event_interruptible(group->poll_wait,atomic_fetch_and_clear_bit(POLL_WAKEUP, &group->poll_wakeup) ||kthread_should_stop());if (kthread_should_stop())break;//psi poll 的核心处理函数psi_poll_work(group);}return 0;
}

这篇关于Linux内存管理(七十二):Linux PSI 原理更新(v5.15)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1014637

相关文章

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Linux实现线程同步的多种方式汇总

《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp?2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主