Linux内存管理(七十二):Linux PSI 原理更新(v5.15)

2024-05-29 21:04

本文主要是介绍Linux内存管理(七十二):Linux PSI 原理更新(v5.15),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

源码基于:Linux 5.15

约定:

  • 芯片架构:ARM64
  • 内存架构:UMA
  • CONFIG_ARM64_VA_BITS:39
  • CONFIG_ARM64_PAGE_SHIFT:12
  • CONFIG_PGTABLE_LEVELS :3

0. 前言

本文是在之前《PSI 详解 v5.4》一文基础上,整理一下PSI 原理中的细节,包含 cgroup v2 关于PSI 的原理和使用。

参考:

PSI 详解 v5.4

PSI 指标

PSI 功能依赖 CONFIG_PSI,当该 config 没有使能,psi.c 是不会被编译到 image的。

1. PSI 中涉及的重要属性

本节主要梳理 PSI 中一些重要的变量、属性值,笔者习惯把重要的属性总结到最前文,阅读PSI 原理可以暂跳过此节。

1.1 psi_enable

kernel/sched/psi.c#ifdef CONFIG_PSI_DEFAULT_DISABLED
static bool psi_enable;
#else
static bool psi_enable = true;
#endif

静态全局变量 psi_enable 受限于 CONFIG_PSI_DEFAULT_DISABLED,默认该 config 不会使能,即 psi_enable 为 true。

另外,可以通过 cmdline 中属性 "psi=" 修改该值:

kernel/sched/psi.cstatic int __init setup_psi(char *str)
{return kstrtobool(str, &psi_enable) == 0;
}
__setup("psi=", setup_psi);

当 psi_enable 为false 时,PSI 全局控制变量 psi_disabled (static key) 会被置成 true:

kernel/sched/psi.cvoid __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}...
}

1.2 psi_period

kernel/sched/psi.c/* Sampling frequency in nanoseconds */
static u64 psi_period __read_mostly;

1.3 psi_cgroups_enabled

kernel/sched/psi.cDEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

该变量主要确认 cgroup 中是否启动了 PSI 功能,默认值为 true。

cgroup 模块通过在 cmdline 中设定 "cgroup_disable=" 属性来禁用功能,例如:

  • 设定 "cgroup_disable=cpuset" 来禁用 cpuset;
  • 设定 "cgroup_disable=pressure" 来禁用 PSI;

在 PSI 初始化 psi_init() 函数调用时,会确定 cgroup 模块是否禁用了 pressure,如果 cgroup 中禁用了 PSI,则 psi_cgroups_enabled 的值会被置为 false。

另外,与 Linux6.6 不同之处是,该变量在 Linux6.6 中定义时加上了 static:

static DEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

1.4 psi_system 

正常情况下,PSI 中通过 struct psi_group 结构体管理 PSI 中所有状态、数据、work 等信息。

psi_system 是 struct psi_group 结构体变量,用以管理系统 PSI 状态、数据、work 等信息。

kernel/sched/psi.cstatic DEFINE_PER_CPU(struct psi_group_cpu, system_group_pcpu);
struct psi_group psi_system = {.pcpu = &system_group_pcpu,
};

但,在 cgroup 中也可以实现PSI 局部管理,通过对 cpu.pressurememory.pressureio.pressure 等文件 write 操作注册 psi_trigger,实现对特定 cgroup 的资源瓶颈状态的监听和跟踪。

1.4 struct psi_group

include/linux/psi_types.hstruct psi_group {//avgs_work 数据同步锁struct mutex avgs_lock;/* Per-cpu task state & time tracking */struct psi_group_cpu __percpu *pcpu;/* Running pressure averages */u64 avg_total[NR_PSI_STATES - 1];//avgs_work的时间点u64 avg_last_update;u64 avg_next_update;//带有定时器的avgs_workstruct delayed_work avgs_work;/* Total stall times and sampled pressure averages */u64 total[NR_PSI_AGGREGATORS][NR_PSI_STATES - 1];unsigned long avg[NR_PSI_STATES - 1][3];//psimon 线程struct task_struct __rcu *poll_task;struct timer_list poll_timer;wait_queue_head_t poll_wait;atomic_t poll_wakeup;/* Protects data used by the monitor */struct mutex trigger_lock;//所有psi_trigger都存在链表中struct list_head triggers;//每个psi_states类型的psi_trigger 数量u32 nr_triggers[NR_PSI_STATES - 1];//统计poll_work 需要处理哪些psi_states类型的 triggeru32 poll_states;//记录poll_work 最小的周期u64 poll_min_period;/* Total stall times at the start of monitor activation */u64 polling_total[NR_PSI_STATES - 1];u64 polling_next_update;u64 polling_until;
};

2. PSI module 初始化

在module init 时调用 psi_proc_init() 进行 PSI 的初始化,创建了proc 虚拟文件目录 pressure,并在其下面创建了三个子文件:pressure/io、pressure/memory、pressure/cpu

与 Linux5.4 版本不同之处是,这些节点的创建是在  psi_enable 为true 条件下:

kernel/sched/psi.cstatic int __init psi_proc_init(void)
{if (psi_enable) {proc_mkdir("pressure", NULL);proc_create("pressure/io", 0, NULL, &psi_io_proc_ops);proc_create("pressure/memory", 0, NULL, &psi_memory_proc_ops);proc_create("pressure/cpu", 0, NULL, &psi_cpu_proc_ops);}return 0;
}
module_init(psi_proc_init);

更多关于 psi_enable  变量信息可以查看上文第 1.1 节。 

3. PSI 初始化 psi_init()

start_kernel()---->sched_init()---->psi_init()

与 Linux5.4 不同之处是,这里开始多了 cgroup 的控制,主要是通过控制变量 psi_cgroups_enabled (static key),默认为true。

void __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}if (!cgroup_psi_enabled())static_branch_disable(&psi_cgroups_enabled);psi_period = jiffies_to_nsecs(PSI_FREQ);group_init(&psi_system);
}

与 Linux6.6 不同之处是,当 psi_enable 为false 时,也会将 psi_cgroups_enabled 置为 false。

更多关于 psi_cgroups_enabledpsi_periodpsi_system 可以查看上文第 1.2 节。

3.1 group_init()

kernel/sched/psi.cstatic void group_init(struct psi_group *group)
{int cpu;for_each_possible_cpu(cpu)seqcount_init(&per_cpu_ptr(group->pcpu, cpu)->seq);//初始化avgs_work 的两个时间点group->avg_last_update = sched_clock();group->avg_next_update = group->avg_last_update + psi_period;//初始化带定时器的work,并指定处理函数为psi_avgs_work()INIT_DELAYED_WORK(&group->avgs_work, psi_avgs_work);//初始化avgs_work 数据同步的 avgs_lockkmutex_init(&group->avgs_lock);/* Init trigger-related members */atomic_set(&group->poll_wakeup, 0);mutex_init(&group->trigger_lock);//初始化psi_trigger listINIT_LIST_HEAD(&group->triggers);//初始化每个psi_states类型的psi_trigger 数量memset(group->nr_triggers, 0, sizeof(group->nr_triggers));//初始化poll_work 需要处理哪些psi_states类型的 triggergroup->poll_states = 0;//初始化poll_work 的时间间隔,对于psi_system 这个group只记录最小值group->poll_min_period = U32_MAX;memset(group->polling_total, 0, sizeof(group->polling_total));//初始化下一次poll_work触发的时间group->polling_next_update = ULLONG_MAX;group->polling_until = 0;//初始化poll_work的等待队列init_waitqueue_head(&group->poll_wait);timer_setup(&group->poll_timer, poll_timer_fn, 0);rcu_assign_pointer(group->poll_task, NULL);
}

4. psi_trigger_create()

该函数用以创建 psi_trigger,系统中两个地方会触发:

  • 写 /proc/pressure/* 文件
  • 写 /sys/fs/cgroup/*.pressure 文件

创建好的 psi_trigger 都会被存在对应的 psi_group 中,或是系统的 psi_system,或是 cgroup 中的psi_group。

另外,在第一次创建 psi_trigger 的时候会创建 task "psimon"与 Linux5.4 不同之处是,这里用 kthread_create() 直接创建 task_struct,而不再是 kthread_worker。

kernel/sched/psi.cstruct psi_trigger *psi_trigger_create(struct psi_group *group,char *buf, size_t nbytes, enum psi_res res)
{struct psi_trigger *t;enum psi_states state;u32 threshold_us;u32 window_us;if (static_branch_likely(&psi_disabled))   //psi 是否enablereturn ERR_PTR(-EOPNOTSUPP);if (sscanf(buf, "some %u %u", &threshold_us, &window_us) == 2)  //解析是否为写 some 数据state = PSI_IO_SOME + res * 2;else if (sscanf(buf, "full %u %u", &threshold_us, &window_us) == 2) //解析是否为写 full 数据state = PSI_IO_FULL + res * 2;elsereturn ERR_PTR(-EINVAL);   //其他数据都认为无效if (state >= PSI_NONIDLE)   //pis_states 不能超过PSI_NONIDLEreturn ERR_PTR(-EINVAL);if (window_us < WINDOW_MIN_US ||  //窗口时长设置在500ms 至 10swindow_us > WINDOW_MAX_US)return ERR_PTR(-EINVAL);/* Check threshold */if (threshold_us == 0 || threshold_us > window_us)  //检测阈值不能为0,也不能大于窗口时长return ERR_PTR(-EINVAL);t = kmalloc(sizeof(*t), GFP_KERNEL);  //创建一个psi_triggerif (!t)return ERR_PTR(-ENOMEM);t->group = group;   //记录psi_trigger的 groupt->state = state;   //记录psi_trigger的 psi_statest->threshold = threshold_us * NSEC_PER_USEC;  //记录psi_trigger的检测时间,us 单位t->win.size = window_us * NSEC_PER_USEC;      //记录psi_trigger的窗口时长,us 单位window_reset(&t->win, 0, 0, 0);t->event = 0;t->last_event_time = 0;init_waitqueue_head(&t->event_wait);mutex_lock(&group->trigger_lock);if (!rcu_access_pointer(group->poll_kworker)) { //psi 系统相当关键的地方,创建psimon 工作线程struct task_struct *task;task = kthread_create(psi_poll_worker, group, "psimon");if (IS_ERR(task)) {kfree(t);mutex_unlock(&group->trigger_lock);return ERR_CAST(task);}atomic_clear_bit(POLL_WAKEUP, &group->poll_wakeup);wake_up_process(task);rcu_assign_pointer(group->poll_task, task); //存放task到poll_task中}list_add(&t->node, &group->triggers);  //将新建的psi_trigger 存入group 中group->poll_min_period = min(group->poll_min_period,div_u64(t->win.size, UPDATES_PER_WINDOW)); //确认最新的poll 周期group->nr_triggers[t->state]++;    //计数当前psi 资源psi_trigger数量group->poll_states |= (1 << t->state);  //更新group 中资源状态mutex_unlock(&group->trigger_lock);return t;
}

 

4.1 psi_poll_worker()

该函数是 psimon 线程的执行函数,在 group->poll_wakup 被置为 POLL_WAKUP 或 线程停止时被唤醒,如果是 POLL_WAKEUP 唤醒则调用核心处理函数 psi_poll_work()

kernel/sched/psi.cstatic int psi_poll_worker(void *data)
{struct psi_group *group = (struct psi_group *)data;//设置psimon 的优先级sched_set_fifo_low(current);//等待唤醒,并执行psi_poll_work()while (true) {wait_event_interruptible(group->poll_wait,atomic_fetch_and_clear_bit(POLL_WAKEUP, &group->poll_wakeup) ||kthread_should_stop());if (kthread_should_stop())break;//psi poll 的核心处理函数psi_poll_work(group);}return 0;
}

这篇关于Linux内存管理(七十二):Linux PSI 原理更新(v5.15)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1014637

相关文章

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Redis实现高效内存管理的示例代码

《Redis实现高效内存管理的示例代码》Redis内存管理是其核心功能之一,为了高效地利用内存,Redis采用了多种技术和策略,如优化的数据结构、内存分配策略、内存回收、数据压缩等,下面就来详细的介绍... 目录1. 内存分配策略jemalloc 的使用2. 数据压缩和编码ziplist示例代码3. 优化的

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

SpringBoot集成XXL-JOB实现任务管理全流程

《SpringBoot集成XXL-JOB实现任务管理全流程》XXL-JOB是一款轻量级分布式任务调度平台,功能丰富、界面简洁、易于扩展,本文介绍如何通过SpringBoot项目,使用RestTempl... 目录一、前言二、项目结构简述三、Maven 依赖四、Controller 代码详解五、Service