Intel性能分析工具Vtune安装和使用简介

2024-04-18 12:04

本文主要是介绍Intel性能分析工具Vtune安装和使用简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、介绍

Intel Vtune profiler是用于串行和多线程应用程序的性能分析工具,可以帮助软件开发人员对应用程序的性能问题进行分析,支持包括linux和windows在内的多种操作系统。主要功能包括:

  • 性能分析:可以对应用程序进行深入的性能分析,帮助用户了解应用程序在不同的硬件和软件环境下的运行情况。
  • 热点检测:可以识别出程序中的热点部分,指导开发者进行优化。
  • 性能瓶颈分析:通过分析CPU、内存、IO等各个方面的性能,帮助确定应用程序的性能瓶颈。
  • 多线程分析:对于多线程应用程序,能够分析线程的运行状况,包括线程的同步、竞争和死锁等问题。

二、安装

tee > /tmp/oneAPI.repo << EOF
[oneAPI]
name=Intel® oneAPI repository
baseurl=https://yum.repos.intel.com/oneapi
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://yum.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB
EOF

将oneAPI.repo移动到/etc/yum.repos.d目录中,执行

yum install intel-oneapi-vtune

安装vtune工具

如果是使用root用户进行安装的,安装完成后,默认的安装目录是在/opt/intel/oneapi/vtune中,执行

source /opt/intel/oneapi/vtune/latest/env/vars.sh

之后就可以在命令行界面中使用vtune命令了。

为了验证vtune profiler是否能够正确使用以及在安装过程中是否存在某些未知问题,可以运行安装包中的一个自动测试脚本,此脚本会运行对一个示例应用程序的分析

运行如下命令:

sh /opt/intel/oneapi/vtune/latest/bin64/vtune-self-checker.sh

此脚本会运行几分钟进行必要的信息收集,如果一切正常会产生对应的输出。

三、使用

3.1 默认测试用例使用

在vtuned中自带了一个测试用例matrix,目录位于/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix

在vtune的welcome界面点击New Project创建一个新的项目

在Project name栏输入项目名称(自定义),Location输入项目存放路径(任意)

项目创建完成自动进入Configure Analysis目录,Where选择Local Host(默认),Launch Application->Application处选择二进制文件的位置,也可以使用进程pid或者进行整系统的监测,修改WHAT的类型即可

我们这里是/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix,点击start按钮

vtune自动执行分析操作

执行完成后会输出summary

右上部分是一些基本的衡量指标,中间部分是可以进行进一步分析的方向,其中标红是推荐进行分析的方向。

接下来可对应用程序进行性能瓶颈分析,优化,然后再次执行性能分析工作来判断性能是否提升。

下一步分析方向有以下几个点:

算法分析:

热点分析用来查找代码花费时间最多的位置。

异常监测识别频繁重复代码中的性能异常问题。

内存消耗分析分析应用进程的内存消耗情况,仅适用于linux。

微架构分析:

微架构识别CPU流水线中的性能瓶颈。

内存访问分析应用程序的内存,查看CPU的缓存和主存使用情况。

并行性分析:

线程分析线程的并行度,定位并发度低的原因以及代码中的串行瓶颈。

HPC性能分析计算密集型应用程序如何使用CPU、内存和FPU的资源。

IO分析:

分析IO系统、总显得利用率

加速单元:

GPU offload分析应用程序是否存在GPU限制。

GPU热点分析GPU绑定的应用程序执行效率低的问题

CPU/FPGC分析FPGA的利用率

平台分析:

系统概述识别限制性能的平台因素

Platform Profiler手机较长时间内满负荷运行的系统数据

3.2 测试用例分析

matrix用例的功能是一个矩阵乘法器。

可以选择以下任意一种乘法核进行运算,需要在multiply.h头文件中对MULTIPLY的宏定义进行修改然后重新通过make编译程序。

multiply0:最基本的单线程实现

multiply1:最基本的多线程实现

multiply2:使用循环交换和向量化进行优化的实现(使用了编译器的向量选项)

multiply3:使用了cache blocking和data align的优化

multiply4:使用了matrix transposition和loop unrolling的优化

multiply5:使用Intel MKL优化

线程使用方式:线程模型使用系统自定义的,linux上是pthreads,windows上是win32 threads,OpenMP线程模型也可以使用。

修改线程模型:windows上选择使用Release,Release_OMP或者Release_MKL配置

linux上在Makefile文件中修改PARAMODEL为USE_THR,USE_OMP或者USE_MKL

矩阵属性:默认情况下矩阵的大小是2048,如果需要增大matrix的大小可以在multiply.h中重新定义MAXTHREADS的值,需要确保这个值是线程的倍数。默认情况下执行线程数目等于CPU cores的数目,可以修改MAXTHREADS来修改线程数。

vtune自带的测试用例matrix.c文件(在/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix/src目录下)需要修改

#include

修改为

#include

否则会报出找不到gettimeofday的错误

这篇关于Intel性能分析工具Vtune安装和使用简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/914726

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Spring Boot中WebSocket常用使用方法详解

《SpringBoot中WebSocket常用使用方法详解》本文从WebSocket的基础概念出发,详细介绍了SpringBoot集成WebSocket的步骤,并重点讲解了常用的使用方法,包括简单消... 目录一、WebSocket基础概念1.1 什么是WebSocket1.2 WebSocket与HTTP

C#中Guid类使用小结

《C#中Guid类使用小结》本文主要介绍了C#中Guid类用于生成和操作128位的唯一标识符,用于数据库主键及分布式系统,支持通过NewGuid、Parse等方法生成,感兴趣的可以了解一下... 目录前言一、什么是 Guid二、生成 Guid1. 使用 Guid.NewGuid() 方法2. 从字符串创建

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC