Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践

2024-01-27 06:12

本文主要是介绍Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景:在某个嵌入式上的图像处理项目功能开发告一段落,进入性能优化阶段。尝试从多线程上对图像处理过程进行加速。经过初步调研后,可以从OPENMP,TBB这两块进行加速,当前项目中有些算法已采用多线程加速,这次主要是对比以上两个加速模块与多线程加速效果的对比。现在PC上实验,然后再移植相关库。

环境准备:WIN11 ,VS2022 ,Debug 64
1、编译OPENCV。
经测试,编译过程是否选择TBB,MP相关选项对加载对应库和使用不影响。
2、安装TBB。(https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html)
VS配置之打开相关模块。打开TBB支持
打开openmp支持

对比过程:实验对比的对象包括:
1、基础FOR循环。
2、多线程。
3、原数据相同的TBB。
4、原数据独立的TBB。
5、原数据相同的OPENMP;
6、原数据独立的OPENMP;
测试数据为960*600的图像,测试内容为对该图进行大尺寸滤波操作。

测试代码:

#include <fstream>
#include <iostream>
#include <vector>
#include <opencv2/opencv.hpp>
#include <omp.h>
#include <future>
#include <thread>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>int main()
{const static int iCnt = 50;//循环次数Mat imori = imread("ori.png");cvtColor(imori, imori, COLOR_BGR2GRAY);Mat imoriMt, imoriMP, imoriTbb, imoriAMP[iCnt], imoriATBB[iCnt];imori.copyTo(imoriMt);imori.copyTo(imoriMP);imori.copyTo(imoriTbb);for (size_t i = 0; i < iCnt; i++){imori.copyTo(imoriAMP[i]);imori.copyTo(imoriATBB[i]);}Mat imRslt[iCnt], imRsltMt[iCnt], imRsltMP[iCnt], imRsltAMP[iCnt],imRsltTbb[iCnt], imRsltATBB[iCnt];std::vector<std::future<void>> vFutures(iCnt);double start1 = omp_get_wtime();{for (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(25, 25, CV_32F);filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double end1 = omp_get_wtime();cout << " cv Normal Time = " << (end1 - start1) << endl;double startMt = omp_get_wtime();int i = 0;for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++, i++)*iter = std::async([](cv::Mat* imRslt, Mat imori, int i) {Mat kealMN = Mat::ones(33, 33, CV_32F); filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101); }, imRsltMt, imoriMt, i);for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++)iter->get();double endMt = omp_get_wtime();cout << " cv MThread Time = " << (endMt - startMt) << endl;double startMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriMP, imRsltMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endMP = omp_get_wtime();cout << " cv MP Time = " << (endMP - startMP) << endl;double startAMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriAMP[i], imRsltAMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endAMP = omp_get_wtime();cout << " cv AMP Time = " << (endAMP - startAMP) << endl;double startTbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriTbb, imRsltTbb[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endTbb = omp_get_wtime();cout << " cv Tbb Time = " << (endTbb - startTbb) << endl;double startATbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriATBB[i], imRsltATBB[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endATbb = omp_get_wtime();cout << " cv Atbb Time = " << (endATbb - startATbb) << endl;getchar();return 0;}

实验结果:
处理结果

实验结论:
1、OPENMP,TBB可以有效对并行处理进行加速,其效果与多线程处理基本持平。
2、OPENMP,TBB的优势在于代码编写相对简单,也不用考虑线程数的设置。
3、OPENMP,TBB的基础数据独立与否,对测试速度基本不影响(待定,有的同学说会导致各线程等待访问同一数据,引起耗时增加),也可能和PC的性能较好有关。但尽量去保证数据独立性,避免处理结果错误。

ARM实践 TODO

这篇关于Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649295

相关文章

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

通过React实现页面的无限滚动效果

《通过React实现页面的无限滚动效果》今天我们来聊聊无限滚动这个现代Web开发中不可或缺的技术,无论你是刷微博、逛知乎还是看脚本,无限滚动都已经渗透到我们日常的浏览体验中,那么,如何优雅地实现它呢?... 目录1. 早期的解决方案2. 交叉观察者:IntersectionObserver2.1 Inter

springboot依靠security实现digest认证的实践

《springboot依靠security实现digest认证的实践》HTTP摘要认证通过加密参数(如nonce、response)验证身份,避免明文传输,但存在密码存储风险,相比基本认证更安全,却因... 目录概述参数Demopom.XML依赖Digest1Application.JavaMyPasswo

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

Java 结构化并发Structured Concurrency实践举例

《Java结构化并发StructuredConcurrency实践举例》Java21结构化并发通过作用域和任务句柄统一管理并发生命周期,解决线程泄漏与任务追踪问题,提升代码安全性和可观测性,其核心... 目录一、结构化并发的核心概念与设计目标二、结构化并发的核心组件(一)作用域(Scopes)(二)任务句柄

Java中的Schema校验技术与实践示例详解

《Java中的Schema校验技术与实践示例详解》本主题详细介绍了在Java环境下进行XMLSchema和JSONSchema校验的方法,包括使用JAXP、JAXB以及专门的JSON校验库等技术,本文... 目录1. XML和jsON的Schema校验概念1.1 XML和JSON校验的必要性1.2 Sche

C++读写word文档(.docx)DuckX库的使用详解

《C++读写word文档(.docx)DuckX库的使用详解》DuckX是C++库,用于创建/编辑.docx文件,支持读取文档、添加段落/片段、编辑表格,解决中文乱码需更改编码方案,进阶功能含文本替换... 目录一、基本用法1. 读取文档3. 添加段落4. 添加片段3. 编辑表格二、进阶用法1. 文本替换2