SIMD——请不要妄图优化opencv的函数

2023-11-21 15:10

本文主要是介绍SIMD——请不要妄图优化opencv的函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大纲

  • ORB-SLAM特征提取之SIMD优化
    • 一、优化手段
      • 1、NEON
      • 2、SSE
    • 二、cv::gaussianblur函数优化
    • 三、cv::FAST函数优化
    • 四、原因分析

ORB-SLAM特征提取之SIMD优化

一、优化手段

1、NEON

NEON是基于ARM架构的一种128位的SIMD(Single Instruction, Multiple Data,单指令、多数据)的拓展结构,具体的细节在这里不做过多的介绍,我们来讨论NEON在实际工程中的两种使用方式:

(1)汇编

相信学习过单片机的朋友对汇编语言一定都是又恨又怕,复杂的指令与奇怪的逻辑令人望而却步,我们来看一小段基于汇编的NEON指令:

 "vld1.8       {d8,d9}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d10,d11}, [%[in1]]\n\t""add          %[in1], %[step]\n\t""vld1.8       {d12,d13}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d14,d15}, [%[in1]]\n\t"

什么东西?这是什么东西!说实话,我也看不太懂,所以基于汇编的NEON指令难度大,可移植性差,但是由于汇编语言的特性,决定了它具有很高的效率。Anyway,我们来看下一种方式。

(2)使用arm提供的Intrinsics函数
可以认为是内联函数,但是在编译时编译器会将函数转化为neon指令。调用该函数需要包含头文件arm_neon.h,该头文件包含了neon各种操作函数。当然,我在这里同样来展示一段代码:

 for(; j < img.cols - 16 - 3; j += 16, ptr += 16){uint8x16_t m0,m1;uint8x16_t v0 = vld1q_u8((const uint8_t*)ptr);uint8x16_t v1 = vqsubq_u8(v0,t);v0 = vqaddq_u8(v0,t);

了解过NEON的同学这段代码应该不难看懂,就是简单的加减法,我们可以看到,这种内联方式的NEON代码指令难度低,可移植行也就比汇编形式的高很多。

2、SSE

SSE是Intel x86架构CPU的SIMD指令的简称,与NEON一样具有汇编和内联函数两种形式。

二、cv::gaussianblur函数优化

由于本次实验的电脑是intel的CPU,所以采用SSE优化的方式对高斯模糊函数进行优化,在优化之前,记录了cv::gaussianblur函数的效率如下图所示:在这里插入图片描述9.41ms,在我的认知领域内,应该不是具有很高效率的时常,所以我对该函数进行了SSE优化,对gaussainblur函数的源码进行了修改,执行时间如下:在这里插入图片描述惊人的148ms。当然,如果你需要的源码,可以私信我,我发给你自己run一下。总的来说,这并不是一次非常愉快的优化过程,同样的,接下来的SSE优化也令我大跌眼镜。

三、cv::FAST函数优化

FAST提取图像中的特征点是ORB-SLAM系列中使用的一种方法,具体原理不再赘述,因为这毕竟不是一篇介绍SLAM算法的blog,我们来看opencv实现的FAST函数耗时如何:在这里插入图片描述
结果是2.65ms,不得不说opencv优化的已经很好了。注意!!!这里使用了和ORBSLAM2中相同的阈值:20。在ORBSLAM2中该函数在网格的循环遍历中被调用,ORBSLAM2将图像分为30x30个网格,在每个网格中进行FAST角点检测,经过测量,每个网格中耗时约为0.02ms,为什么差异这么大呢,首先于ORBSLAM中独特的网格划分有关系,其次与图像的大小也有关系。接下来,我们来看我进行了SSE优化的代码,相关代码已经有NEON实现,你需要做的只是将NEON转化为SSE即可:在这里插入图片描述50ms。。唉,当我看到这个结果的时候,心里有一种说不出的酸楚…

四、原因分析

实验失败不可怕,可怕的是不分析为什么失败,经过资料的查询与文献的阅读我大概的掌握了其中的奥义。

(1)OpenCV的函数自带SIMD加速,无论是gaussainblur还是FAST都自带了SMID的并行加速,并且OpenCV代码结构和顺序更加合理,能够更好的发挥CPU的全部性能
(2)OpenCV的优化是按照运行环境中CPU的架构来决定的,我们知道到INTEL的SIMD指令集avx512是高于SSE的,由于我运行的环境中支持avx512,所以使用该指令集的优化代码效率必然高于SSE。
(3)最终的建议是:别动OpenCV的源码为好,除非用汇编…,这得是神人来写了。

这篇关于SIMD——请不要妄图优化opencv的函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/403146

相关文章

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

java中BigDecimal里面的subtract函数介绍及实现方法

《java中BigDecimal里面的subtract函数介绍及实现方法》在Java中实现减法操作需要根据数据类型选择不同方法,主要分为数值型减法和字符串减法两种场景,本文给大家介绍java中BigD... 目录Java中BigDecimal里面的subtract函数的意思?一、数值型减法(高精度计算)1.

C++/类与对象/默认成员函数@构造函数的用法

《C++/类与对象/默认成员函数@构造函数的用法》:本文主要介绍C++/类与对象/默认成员函数@构造函数的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录名词概念默认成员函数构造函数概念函数特征显示构造函数隐式构造函数总结名词概念默认构造函数:不用传参就可以

C++类和对象之默认成员函数的使用解读

《C++类和对象之默认成员函数的使用解读》:本文主要介绍C++类和对象之默认成员函数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、默认成员函数有哪些二、各默认成员函数详解默认构造函数析构函数拷贝构造函数拷贝赋值运算符三、默认成员函数的注意事项总结一

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y