Linux内核 eBPF基础:perf(2):perf性能管理单元PMU的注册

2023-10-14 06:58

本文主要是介绍Linux内核 eBPF基础:perf(2):perf性能管理单元PMU的注册,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Linux内核 eBPF基础
perf(2):性能管理单元PMU的注册


荣涛
2021年5月18日

  • 本文相关注释代码:https://github.com/Rtoax/linux-5.10.13
  • Linux内核性能架构:perf_event

1. perf类型

include\uapi\linux\perf_event.h中有:

/** attr.type*/
enum perf_type_id { /* perf 类型 */PERF_TYPE_HARDWARE			= 0,    /* 硬件 */PERF_TYPE_SOFTWARE			= 1,    /* 软件 */PERF_TYPE_TRACEPOINT		= 2,    /* 跟踪点 */PERF_TYPE_HW_CACHE			= 3,    /* 硬件cache */PERF_TYPE_RAW				= 4,    /* RAW */PERF_TYPE_BREAKPOINT		= 5,    /* 断点 */PERF_TYPE_MAX,				/* non-ABI */
};

他们是传入性能管理单元PMU注册函数perf_pmu_register的字段type。列出注册的PMU:

[rongtao@localhost src]$ grep -r "perf_pmu_register" | grep "\""
arch/x86/events/intel/bts.c:	return perf_pmu_register(&bts_pmu, "intel_bts", -1);
arch/x86/events/intel/pt.c:	ret = perf_pmu_register(&pt_pmu.pmu, "intel_pt", -1);
arch/x86/events/amd/power.c:	ret = perf_pmu_register(&pmu_class, "power", -1);
arch/x86/events/core.c:	err = perf_pmu_register(&pmu, "cpu", PERF_TYPE_RAW);
arch/x86/events/msr.c:	perf_pmu_register(&pmu_msr, "msr", -1);
arch/x86/events/rapl.c:	ret = perf_pmu_register(&rapl_pmus->pmu, "power", -1);
kernel/events/hw_breakpoint.c:	perf_pmu_register(&perf_breakpoint, "breakpoint", PERF_TYPE_BREAKPOINT);
kernel/events/core.c:	perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);
kernel/events/core.c:	perf_pmu_register(&perf_kprobe, "kprobe", -1);
kernel/events/core.c:	perf_pmu_register(&perf_uprobe, "uprobe", -1);
kernel/events/core.c:	perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);kernel/events/core.c:	perf_pmu_register(&perf_cpu_clock, NULL, -1);
kernel/events/core.c:	perf_pmu_register(&perf_task_clock, NULL, -1);

2. perf_pmu_register

int perf_pmu_register(struct pmu *pmu, const char *name, int type)

这里需要注意,函数perf_pmu_register是非常重要的注册函数,注册的pmu将加入全局链表pmus中:

static LIST_HEAD(pmus);

函数perf_pmu_register首先申请per-cpu变量:

pmu->pmu_disable_count = alloc_percpu(int);

接着,如果类型不是PERF_TYPE_SOFTWARE,将分配一个ID(前提是name没有设定,如perf_cpu_clock

if (type != PERF_TYPE_SOFTWARE) {if (type >= 0)max = type;/* 分配一个ID */ret = idr_alloc(&pmu_idr, pmu, max, 0, GFP_KERNEL);if (ret < 0)goto free_pdc;WARN_ON(type >= 0 && ret != type);type = ret;
}

然后,申请一个设备:

	if (pmu_bus_running/* perf_event_sysfs_init() 中被设置 为 1 */) {ret = pmu_dev_alloc(pmu);   /* 分配一个设备 device- /sys/devices/ */if (ret)goto free_idr;}

接下来这段代码表明,每个hw只能注册一次:

	if (pmu->task_ctx_nr == perf_hw_context) {static int hw_context_taken = 0;/** Other than systems with heterogeneous CPUs, it never makes* sense for two PMUs to share perf_hw_context. PMUs which are* uncore must use perf_invalid_context.*/if (WARN_ON_ONCE(hw_context_taken &&!(pmu->capabilities & PERF_PMU_CAP_HETEROGENEOUS_CPUS)))pmu->task_ctx_nr = perf_invalid_context;hw_context_taken = 1;}

否则,其将被设置为perf_invalid_context。然后为每个CPU分配上下文:

    pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);

紧接着,进行初始化:

	for_each_possible_cpu(cpu) {    /* 遍历 CPU */struct perf_cpu_context *cpuctx;cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);    /* 1.获取 CPU 的ctx */__perf_event_init_context(&cpuctx->ctx);            /* 2.初始化这个ctx */lockdep_set_class(&cpuctx->ctx.mutex, &cpuctx_mutex);/*3.初始化lockdep  */lockdep_set_class(&cpuctx->ctx.lock, &cpuctx_lock);cpuctx->ctx.pmu = pmu;                              /* 4.指向这个PMU */cpuctx->online = cpumask_test_cpu(cpu, perf_online_mask);/* 5.是否在线标记 */__perf_mux_hrtimer_init(cpuctx, cpu);               /* 6.高精度定时器,function=perf_mux_hrtimer_handler */cpuctx->heap_size = ARRAY_SIZE(cpuctx->heap_default);/*  */cpuctx->heap = cpuctx->heap_default;    /* 默认使用2个 */}

其中__perf_event_init_context初始化struct perf_event_context结构:

/** Initialize the perf_event context in a task_struct:*/
static void __perf_event_init_context(struct perf_event_context *ctx)   /* 初始化CPU ctx */
{raw_spin_lock_init(&ctx->lock);mutex_init(&ctx->mutex);INIT_LIST_HEAD(&ctx->active_ctx_list);perf_event_groups_init(&ctx->pinned_groups);perf_event_groups_init(&ctx->flexible_groups);INIT_LIST_HEAD(&ctx->event_list);INIT_LIST_HEAD(&ctx->pinned_active);INIT_LIST_HEAD(&ctx->flexible_active);refcount_set(&ctx->refcount, 1);
}

__perf_mux_hrtimer_init初始化一个高精度定时器,

static void __perf_mux_hrtimer_init(struct perf_cpu_context *cpuctx, int cpu)   /* 高精度定时器 */
{struct hrtimer *timer = &cpuctx->hrtimer;struct pmu *pmu = cpuctx->ctx.pmu;u64 interval;/* no multiplexing needed for SW PMU */if (pmu->task_ctx_nr == perf_sw_context)return;/** check default is sane, if not set then force to* default interval (1/tick)*/interval = pmu->hrtimer_interval_ms;if (interval < 1)interval = pmu->hrtimer_interval_ms = PERF_CPU_HRTIMER; /* 小于1ms,就让他是 1ms */cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * interval);raw_spin_lock_init(&cpuctx->hrtimer_lock);hrtimer_init(timer, CLOCK_MONOTONIC, HRTIMER_MODE_ABS_PINNED_HARD);timer->function = perf_mux_hrtimer_handler; /* 处理函数 */
}

需要注意一下几点:

  • 如果是软件上下文perf_sw_context,不创建定时器;
  • 如果ioctl设置的到期时间小于1ms,将其设置为1ms
  • 会调函数为perf_mux_hrtimer_handler

在获取到CPU上下文后,给没有初始化的PMU函数指针赋值:

    /*  */if (!pmu->start_txn) {if (pmu->pmu_enable) {/** If we have pmu_enable/pmu_disable calls, install* transaction stubs that use that to try and batch* hardware accesses.*/pmu->start_txn  = perf_pmu_start_txn;pmu->commit_txn = perf_pmu_commit_txn;pmu->cancel_txn = perf_pmu_cancel_txn;} else {pmu->start_txn  = perf_pmu_nop_txn;pmu->commit_txn = perf_pmu_nop_int;pmu->cancel_txn = perf_pmu_nop_void;}}/* 使能 */if (!pmu->pmu_enable) {pmu->pmu_enable  = perf_pmu_nop_void;pmu->pmu_disable = perf_pmu_nop_void;}/* 检测周期 ioctl(PERF_EVENT_IOC_PERIOD) */if (!pmu->check_period)pmu->check_period = perf_event_nop_int;/*  */if (!pmu->event_idx)pmu->event_idx = perf_event_idx_default;

下面是将这个PMU添加到pmus链表中:

	/** Ensure the TYPE_SOFTWARE PMUs are at the head of the list,* since these cannot be in the IDR. This way the linear search* is fast, provided a valid software event is provided.*/if (type == PERF_TYPE_SOFTWARE || !name)list_add_rcu(&pmu->entry, &pmus);   /* 软件 或者 name=NULL */elselist_add_tail_rcu(&pmu->entry, &pmus);/*  */

需要注意的是,软件类型的PMU将放到链表开头,以提高线性查询速度。

3. 例: software

//kernel/events/core.c
static struct pmu/* 性能监控单元 */ perf_swevent = {.task_ctx_nr	= perf_sw_context,.capabilities	= PERF_PMU_CAP_NO_NMI,.event_init	= perf_swevent_init,.add		= perf_swevent_add,.del		= perf_swevent_del,.start		= perf_swevent_start,.stop		= perf_swevent_stop,.read		= perf_swevent_read,
};perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);

3.1. perf_swevent_init

4. 例: perf_cpu_clock

//kernel/events/core.c
static struct pmu perf_cpu_clock = {.task_ctx_nr	= perf_sw_context,.capabilities	= PERF_PMU_CAP_NO_NMI,.event_init	= cpu_clock_event_init,.add		= cpu_clock_event_add,.del		= cpu_clock_event_del,.start		= cpu_clock_event_start,.stop		= cpu_clock_event_stop,.read		= cpu_clock_event_read,
};perf_pmu_register(&perf_cpu_clock, NULL, -1);

5. 例: perf_task_clock

//kernel/events/core.c
static struct pmu perf_task_clock = {.task_ctx_nr	= perf_sw_context,.capabilities	= PERF_PMU_CAP_NO_NMI,.event_init	= task_clock_event_init,.add		= task_clock_event_add,.del		= task_clock_event_del,.start		= task_clock_event_start,.stop		= task_clock_event_stop,.read		= task_clock_event_read,
};perf_pmu_register(&perf_task_clock, NULL, -1);

6. 例: kprobe

//kernel/events/core.c
static struct pmu perf_kprobe = {.task_ctx_nr	= perf_sw_context,.event_init	= perf_kprobe_event_init,.add		= perf_trace_add,.del		= perf_trace_del,.start		= perf_swevent_start,.stop		= perf_swevent_stop,.read		= perf_swevent_read,.attr_groups	= kprobe_attr_groups,
};perf_pmu_register(&perf_kprobe, "kprobe", -1);

7. 例: tracepoint

//kernel/events/core.c
static struct pmu perf_tracepoint = {.task_ctx_nr	= perf_sw_context,.event_init	= perf_tp_event_init,.add		= perf_trace_add,.del		= perf_trace_del,.start		= perf_swevent_start,.stop		= perf_swevent_stop,.read		= perf_swevent_read,
};perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);

8. pmu->event_init

perf_event_allocperf_init_eventperf_try_init_eventpmu->event_init(event);

而调用了perf_event_alloc的有:

  • perf_event_open
  • perf_event_create_kernel_counter
  • fork|clone
kernel_clonecopy_processperf_event_init_taskperf_event_init_contextinherit_task_groupinherit_groupinherit_eventperf_event_alloc

9. pmu->add

perf_event_enable_perf_event_enable__perf_event_enablectx_sched_inctx_flexible_sched_in|ctx_pinned_sched_inmerge_sched_ingroup_sched_inevent_sched_inevent->pmu->add(event, PERF_EF_START)

10. pmu->del

perf_event_disable_perf_event_disable__perf_event_disablegroup_sched_outevent_sched_outevent->pmu->del(event, 0);

11. pmu->start

12. pmu->stop

13. pmu->read

14. 相关链接

  • 注释源码:https://github.com/Rtoax/linux-5.10.13
  • Linux内核 eBPF基础:perf(1):perf_event在内核中的初始化
  • Linux内核 eBPF基础:perf(2):perf性能管理单元PMU的注册
  • Linux kernel perf architecture
  • Linux perf 1.1、perf_event内核框架
  • Linux内核性能架构:perf_event

这篇关于Linux内核 eBPF基础:perf(2):perf性能管理单元PMU的注册的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/208876

相关文章

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Linux实现线程同步的多种方式汇总

《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp?2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主