C++ SIMD性能优化

2024-06-18 03:04
文章标签 c++ 优化 性能 simd

本文主要是介绍C++ SIMD性能优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

// 使用SIMD指令优化的向量加法
//<mmintrin.h> MMX
//<xmmintrin.h>	SSE
//<emmintrin.h>	SSE2
//<pmmintrin.h>	SSE3
//<tmmintrin.h>	SSSE3
//<smmintrin.h>	SSE4.1
//<nmmintrin.h> SSE4.2
//<wmmintrin.h> AES
//<immintrin.h>	AVX, AVX2, FMA, BMI, POPCNT, AVX512
//<x86intrin.h>	Auto(GCC)
//<intrin.h> Auto(MSVC)
#include <emmintrin.h> // 包含SSE2指令集
#include <valarray>
#include <iostream>
#include <chrono>
#include <vector>__m128i vector_add(__m128i a, __m128i b) {return _mm_add_epi32(a, b);
}void add_vectors(int* a, int* b, int* c, int size) {for (int i = 0; i < size; i += 4) {__m128i va = _mm_load_si128((__m128i*)(a + i));__m128i vb = _mm_load_si128((__m128i*)(b + i));__m128i vc = _mm_add_epi32(va, vb);_mm_store_si128((__m128i*)(c + i), vc);}
}int test() {std::valarray<float> a = { 1.0, 2.0, 3.0, 4.0 };std::valarray<float> b = { 5.0, 6.0, 7.0, 8.0 };std::valarray<float> c = a + b;for (auto& element : c) {std::cout << element << " ";}std::cout << std::endl;// 数据量小std::vector<int> a1(10);std::vector<int> b1(10);for (size_t i = 0; i < 10; i++){a1[i] = i;b1[i] = i + 1;}std::vector<int> c1(10);std::chrono::steady_clock::time_point t1 = std::chrono::steady_clock::now();add_vectors(&a1[0], &b1[0], &c1[0], 4);std::chrono::steady_clock::time_point t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;std::chrono::steady_clock::time_point t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c1.size(); ++i)c1.at(i) = a1.at(i) + b1.at(i);std::chrono::steady_clock::time_point t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;// 数据量大std::vector<int> a2(10000);std::vector<int> b2(10000);for (size_t i = 0; i < 10000; i++){a2[i] = i;b2[i] = i + 1;}std::vector<int> c2(10000);t1 = std::chrono::steady_clock::now();add_vectors(&a2[0], &b2[0], &c2[0], 4);t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c2.size(); ++i)c2.at(i) = a2.at(i) + b2.at(i);t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;//for (const auto& ele : c1)//    std::cout << ele << " ";return 0;
}

输出

6 8 10 12
simd cost 500
cost 400
simd cost 5700
cost 49200


总结: 数据运算量小无效果,数据运算量大效果提升显著

参考

GitHub - parallel101/simdtutor: x86-64 SIMD矢量优化系列教程

GitHub - google/highway: Performance-portable, length-agnostic SIMD with runtime dispatch


创作不易,小小的支持一下吧!

这篇关于C++ SIMD性能优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071132

相关文章

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

Linux下如何使用C++获取硬件信息

《Linux下如何使用C++获取硬件信息》这篇文章主要为大家详细介绍了如何使用C++实现获取CPU,主板,磁盘,BIOS信息等硬件信息,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录方法获取CPU信息:读取"/proc/cpuinfo"文件获取磁盘信息:读取"/proc/diskstats"文

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

C++ vector的常见用法超详细讲解

《C++vector的常见用法超详细讲解》:本文主要介绍C++vector的常见用法,包括C++中vector容器的定义、初始化方法、访问元素、常用函数及其时间复杂度,通过代码介绍的非常详细,... 目录1、vector的定义2、vector常用初始化方法1、使编程用花括号直接赋值2、使用圆括号赋值3、ve

如何高效移除C++关联容器中的元素

《如何高效移除C++关联容器中的元素》关联容器和顺序容器有着很大不同,关联容器中的元素是按照关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的,本文介绍了如何高效移除C+... 目录一、简介二、移除给定位置的元素三、移除与特定键值等价的元素四、移除满足特android定条件的元

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.