C++ SIMD性能优化

2024-06-18 03:04
文章标签 c++ 优化 性能 simd

本文主要是介绍C++ SIMD性能优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

// 使用SIMD指令优化的向量加法
//<mmintrin.h> MMX
//<xmmintrin.h>	SSE
//<emmintrin.h>	SSE2
//<pmmintrin.h>	SSE3
//<tmmintrin.h>	SSSE3
//<smmintrin.h>	SSE4.1
//<nmmintrin.h> SSE4.2
//<wmmintrin.h> AES
//<immintrin.h>	AVX, AVX2, FMA, BMI, POPCNT, AVX512
//<x86intrin.h>	Auto(GCC)
//<intrin.h> Auto(MSVC)
#include <emmintrin.h> // 包含SSE2指令集
#include <valarray>
#include <iostream>
#include <chrono>
#include <vector>__m128i vector_add(__m128i a, __m128i b) {return _mm_add_epi32(a, b);
}void add_vectors(int* a, int* b, int* c, int size) {for (int i = 0; i < size; i += 4) {__m128i va = _mm_load_si128((__m128i*)(a + i));__m128i vb = _mm_load_si128((__m128i*)(b + i));__m128i vc = _mm_add_epi32(va, vb);_mm_store_si128((__m128i*)(c + i), vc);}
}int test() {std::valarray<float> a = { 1.0, 2.0, 3.0, 4.0 };std::valarray<float> b = { 5.0, 6.0, 7.0, 8.0 };std::valarray<float> c = a + b;for (auto& element : c) {std::cout << element << " ";}std::cout << std::endl;// 数据量小std::vector<int> a1(10);std::vector<int> b1(10);for (size_t i = 0; i < 10; i++){a1[i] = i;b1[i] = i + 1;}std::vector<int> c1(10);std::chrono::steady_clock::time_point t1 = std::chrono::steady_clock::now();add_vectors(&a1[0], &b1[0], &c1[0], 4);std::chrono::steady_clock::time_point t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;std::chrono::steady_clock::time_point t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c1.size(); ++i)c1.at(i) = a1.at(i) + b1.at(i);std::chrono::steady_clock::time_point t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;// 数据量大std::vector<int> a2(10000);std::vector<int> b2(10000);for (size_t i = 0; i < 10000; i++){a2[i] = i;b2[i] = i + 1;}std::vector<int> c2(10000);t1 = std::chrono::steady_clock::now();add_vectors(&a2[0], &b2[0], &c2[0], 4);t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c2.size(); ++i)c2.at(i) = a2.at(i) + b2.at(i);t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;//for (const auto& ele : c1)//    std::cout << ele << " ";return 0;
}

输出

6 8 10 12
simd cost 500
cost 400
simd cost 5700
cost 49200


总结: 数据运算量小无效果,数据运算量大效果提升显著

参考

GitHub - parallel101/simdtutor: x86-64 SIMD矢量优化系列教程

GitHub - google/highway: Performance-portable, length-agnostic SIMD with runtime dispatch


创作不易,小小的支持一下吧!

这篇关于C++ SIMD性能优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071132

相关文章

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

C++作用域和标识符查找规则详解

《C++作用域和标识符查找规则详解》在C++中,作用域(Scope)和标识符查找(IdentifierLookup)是理解代码行为的重要概念,本文将详细介绍这些规则,并通过实例来说明它们的工作原理,需... 目录作用域标识符查找规则1. 普通查找(Ordinary Lookup)2. 限定查找(Qualif

C/C++ chrono简单使用场景示例详解

《C/C++chrono简单使用场景示例详解》:本文主要介绍C/C++chrono简单使用场景示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录chrono使用场景举例1 输出格式化字符串chrono使用场景China编程举例1 输出格式化字符串示

C++/类与对象/默认成员函数@构造函数的用法

《C++/类与对象/默认成员函数@构造函数的用法》:本文主要介绍C++/类与对象/默认成员函数@构造函数的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录名词概念默认成员函数构造函数概念函数特征显示构造函数隐式构造函数总结名词概念默认构造函数:不用传参就可以

C++类和对象之默认成员函数的使用解读

《C++类和对象之默认成员函数的使用解读》:本文主要介绍C++类和对象之默认成员函数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、默认成员函数有哪些二、各默认成员函数详解默认构造函数析构函数拷贝构造函数拷贝赋值运算符三、默认成员函数的注意事项总结一

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y