Linux内存管理(七十二):Linux PSI 原理更新(v5.15)

2024-05-29 21:04

本文主要是介绍Linux内存管理(七十二):Linux PSI 原理更新(v5.15),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

源码基于:Linux 5.15

约定:

  • 芯片架构:ARM64
  • 内存架构:UMA
  • CONFIG_ARM64_VA_BITS:39
  • CONFIG_ARM64_PAGE_SHIFT:12
  • CONFIG_PGTABLE_LEVELS :3

0. 前言

本文是在之前《PSI 详解 v5.4》一文基础上,整理一下PSI 原理中的细节,包含 cgroup v2 关于PSI 的原理和使用。

参考:

PSI 详解 v5.4

PSI 指标

PSI 功能依赖 CONFIG_PSI,当该 config 没有使能,psi.c 是不会被编译到 image的。

1. PSI 中涉及的重要属性

本节主要梳理 PSI 中一些重要的变量、属性值,笔者习惯把重要的属性总结到最前文,阅读PSI 原理可以暂跳过此节。

1.1 psi_enable

kernel/sched/psi.c#ifdef CONFIG_PSI_DEFAULT_DISABLED
static bool psi_enable;
#else
static bool psi_enable = true;
#endif

静态全局变量 psi_enable 受限于 CONFIG_PSI_DEFAULT_DISABLED,默认该 config 不会使能,即 psi_enable 为 true。

另外,可以通过 cmdline 中属性 "psi=" 修改该值:

kernel/sched/psi.cstatic int __init setup_psi(char *str)
{return kstrtobool(str, &psi_enable) == 0;
}
__setup("psi=", setup_psi);

当 psi_enable 为false 时,PSI 全局控制变量 psi_disabled (static key) 会被置成 true:

kernel/sched/psi.cvoid __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}...
}

1.2 psi_period

kernel/sched/psi.c/* Sampling frequency in nanoseconds */
static u64 psi_period __read_mostly;

1.3 psi_cgroups_enabled

kernel/sched/psi.cDEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

该变量主要确认 cgroup 中是否启动了 PSI 功能,默认值为 true。

cgroup 模块通过在 cmdline 中设定 "cgroup_disable=" 属性来禁用功能,例如:

  • 设定 "cgroup_disable=cpuset" 来禁用 cpuset;
  • 设定 "cgroup_disable=pressure" 来禁用 PSI;

在 PSI 初始化 psi_init() 函数调用时,会确定 cgroup 模块是否禁用了 pressure,如果 cgroup 中禁用了 PSI,则 psi_cgroups_enabled 的值会被置为 false。

另外,与 Linux6.6 不同之处是,该变量在 Linux6.6 中定义时加上了 static:

static DEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

1.4 psi_system 

正常情况下,PSI 中通过 struct psi_group 结构体管理 PSI 中所有状态、数据、work 等信息。

psi_system 是 struct psi_group 结构体变量,用以管理系统 PSI 状态、数据、work 等信息。

kernel/sched/psi.cstatic DEFINE_PER_CPU(struct psi_group_cpu, system_group_pcpu);
struct psi_group psi_system = {.pcpu = &system_group_pcpu,
};

但,在 cgroup 中也可以实现PSI 局部管理,通过对 cpu.pressurememory.pressureio.pressure 等文件 write 操作注册 psi_trigger,实现对特定 cgroup 的资源瓶颈状态的监听和跟踪。

1.4 struct psi_group

include/linux/psi_types.hstruct psi_group {//avgs_work 数据同步锁struct mutex avgs_lock;/* Per-cpu task state & time tracking */struct psi_group_cpu __percpu *pcpu;/* Running pressure averages */u64 avg_total[NR_PSI_STATES - 1];//avgs_work的时间点u64 avg_last_update;u64 avg_next_update;//带有定时器的avgs_workstruct delayed_work avgs_work;/* Total stall times and sampled pressure averages */u64 total[NR_PSI_AGGREGATORS][NR_PSI_STATES - 1];unsigned long avg[NR_PSI_STATES - 1][3];//psimon 线程struct task_struct __rcu *poll_task;struct timer_list poll_timer;wait_queue_head_t poll_wait;atomic_t poll_wakeup;/* Protects data used by the monitor */struct mutex trigger_lock;//所有psi_trigger都存在链表中struct list_head triggers;//每个psi_states类型的psi_trigger 数量u32 nr_triggers[NR_PSI_STATES - 1];//统计poll_work 需要处理哪些psi_states类型的 triggeru32 poll_states;//记录poll_work 最小的周期u64 poll_min_period;/* Total stall times at the start of monitor activation */u64 polling_total[NR_PSI_STATES - 1];u64 polling_next_update;u64 polling_until;
};

2. PSI module 初始化

在module init 时调用 psi_proc_init() 进行 PSI 的初始化,创建了proc 虚拟文件目录 pressure,并在其下面创建了三个子文件:pressure/io、pressure/memory、pressure/cpu

与 Linux5.4 版本不同之处是,这些节点的创建是在  psi_enable 为true 条件下:

kernel/sched/psi.cstatic int __init psi_proc_init(void)
{if (psi_enable) {proc_mkdir("pressure", NULL);proc_create("pressure/io", 0, NULL, &psi_io_proc_ops);proc_create("pressure/memory", 0, NULL, &psi_memory_proc_ops);proc_create("pressure/cpu", 0, NULL, &psi_cpu_proc_ops);}return 0;
}
module_init(psi_proc_init);

更多关于 psi_enable  变量信息可以查看上文第 1.1 节。 

3. PSI 初始化 psi_init()

start_kernel()---->sched_init()---->psi_init()

与 Linux5.4 不同之处是,这里开始多了 cgroup 的控制,主要是通过控制变量 psi_cgroups_enabled (static key),默认为true。

void __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}if (!cgroup_psi_enabled())static_branch_disable(&psi_cgroups_enabled);psi_period = jiffies_to_nsecs(PSI_FREQ);group_init(&psi_system);
}

与 Linux6.6 不同之处是,当 psi_enable 为false 时,也会将 psi_cgroups_enabled 置为 false。

更多关于 psi_cgroups_enabledpsi_periodpsi_system 可以查看上文第 1.2 节。

3.1 group_init()

kernel/sched/psi.cstatic void group_init(struct psi_group *group)
{int cpu;for_each_possible_cpu(cpu)seqcount_init(&per_cpu_ptr(group->pcpu, cpu)->seq);//初始化avgs_work 的两个时间点group->avg_last_update = sched_clock();group->avg_next_update = group->avg_last_update + psi_period;//初始化带定时器的work,并指定处理函数为psi_avgs_work()INIT_DELAYED_WORK(&group->avgs_work, psi_avgs_work);//初始化avgs_work 数据同步的 avgs_lockkmutex_init(&group->avgs_lock);/* Init trigger-related members */atomic_set(&group->poll_wakeup, 0);mutex_init(&group->trigger_lock);//初始化psi_trigger listINIT_LIST_HEAD(&group->triggers);//初始化每个psi_states类型的psi_trigger 数量memset(group->nr_triggers, 0, sizeof(group->nr_triggers));//初始化poll_work 需要处理哪些psi_states类型的 triggergroup->poll_states = 0;//初始化poll_work 的时间间隔,对于psi_system 这个group只记录最小值group->poll_min_period = U32_MAX;memset(group->polling_total, 0, sizeof(group->polling_total));//初始化下一次poll_work触发的时间group->polling_next_update = ULLONG_MAX;group->polling_until = 0;//初始化poll_work的等待队列init_waitqueue_head(&group->poll_wait);timer_setup(&group->poll_timer, poll_timer_fn, 0);rcu_assign_pointer(group->poll_task, NULL);
}

4. psi_trigger_create()

该函数用以创建 psi_trigger,系统中两个地方会触发:

  • 写 /proc/pressure/* 文件
  • 写 /sys/fs/cgroup/*.pressure 文件

创建好的 psi_trigger 都会被存在对应的 psi_group 中,或是系统的 psi_system,或是 cgroup 中的psi_group。

另外,在第一次创建 psi_trigger 的时候会创建 task "psimon"与 Linux5.4 不同之处是,这里用 kthread_create() 直接创建 task_struct,而不再是 kthread_worker。

kernel/sched/psi.cstruct psi_trigger *psi_trigger_create(struct psi_group *group,char *buf, size_t nbytes, enum psi_res res)
{struct psi_trigger *t;enum psi_states state;u32 threshold_us;u32 window_us;if (static_branch_likely(&psi_disabled))   //psi 是否enablereturn ERR_PTR(-EOPNOTSUPP);if (sscanf(buf, "some %u %u", &threshold_us, &window_us) == 2)  //解析是否为写 some 数据state = PSI_IO_SOME + res * 2;else if (sscanf(buf, "full %u %u", &threshold_us, &window_us) == 2) //解析是否为写 full 数据state = PSI_IO_FULL + res * 2;elsereturn ERR_PTR(-EINVAL);   //其他数据都认为无效if (state >= PSI_NONIDLE)   //pis_states 不能超过PSI_NONIDLEreturn ERR_PTR(-EINVAL);if (window_us < WINDOW_MIN_US ||  //窗口时长设置在500ms 至 10swindow_us > WINDOW_MAX_US)return ERR_PTR(-EINVAL);/* Check threshold */if (threshold_us == 0 || threshold_us > window_us)  //检测阈值不能为0,也不能大于窗口时长return ERR_PTR(-EINVAL);t = kmalloc(sizeof(*t), GFP_KERNEL);  //创建一个psi_triggerif (!t)return ERR_PTR(-ENOMEM);t->group = group;   //记录psi_trigger的 groupt->state = state;   //记录psi_trigger的 psi_statest->threshold = threshold_us * NSEC_PER_USEC;  //记录psi_trigger的检测时间,us 单位t->win.size = window_us * NSEC_PER_USEC;      //记录psi_trigger的窗口时长,us 单位window_reset(&t->win, 0, 0, 0);t->event = 0;t->last_event_time = 0;init_waitqueue_head(&t->event_wait);mutex_lock(&group->trigger_lock);if (!rcu_access_pointer(group->poll_kworker)) { //psi 系统相当关键的地方,创建psimon 工作线程struct task_struct *task;task = kthread_create(psi_poll_worker, group, "psimon");if (IS_ERR(task)) {kfree(t);mutex_unlock(&group->trigger_lock);return ERR_CAST(task);}atomic_clear_bit(POLL_WAKEUP, &group->poll_wakeup);wake_up_process(task);rcu_assign_pointer(group->poll_task, task); //存放task到poll_task中}list_add(&t->node, &group->triggers);  //将新建的psi_trigger 存入group 中group->poll_min_period = min(group->poll_min_period,div_u64(t->win.size, UPDATES_PER_WINDOW)); //确认最新的poll 周期group->nr_triggers[t->state]++;    //计数当前psi 资源psi_trigger数量group->poll_states |= (1 << t->state);  //更新group 中资源状态mutex_unlock(&group->trigger_lock);return t;
}

 

4.1 psi_poll_worker()

该函数是 psimon 线程的执行函数,在 group->poll_wakup 被置为 POLL_WAKUP 或 线程停止时被唤醒,如果是 POLL_WAKEUP 唤醒则调用核心处理函数 psi_poll_work()

kernel/sched/psi.cstatic int psi_poll_worker(void *data)
{struct psi_group *group = (struct psi_group *)data;//设置psimon 的优先级sched_set_fifo_low(current);//等待唤醒,并执行psi_poll_work()while (true) {wait_event_interruptible(group->poll_wait,atomic_fetch_and_clear_bit(POLL_WAKEUP, &group->poll_wakeup) ||kthread_should_stop());if (kthread_should_stop())break;//psi poll 的核心处理函数psi_poll_work(group);}return 0;
}

这篇关于Linux内存管理(七十二):Linux PSI 原理更新(v5.15)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1014637

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Linux云服务器手动配置DNS的方法步骤

《Linux云服务器手动配置DNS的方法步骤》在Linux云服务器上手动配置DNS(域名系统)是确保服务器能够正常解析域名的重要步骤,以下是详细的配置方法,包括系统文件的修改和常见问题的解决方案,需要... 目录1. 为什么需要手动配置 DNS?2. 手动配置 DNS 的方法方法 1:修改 /etc/res

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他

Redis中Set结构使用过程与原理说明

《Redis中Set结构使用过程与原理说明》本文解析了RedisSet数据结构,涵盖其基本操作(如添加、查找)、集合运算(交并差)、底层实现(intset与hashtable自动切换机制)、典型应用场... 目录开篇:从购物车到Redis Set一、Redis Set的基本操作1.1 编程常用命令1.2 集