OpenVINO 2021r2 - Remote Blob API of GPU Plugin 示例复现(二) Inference within User-Supplied Shared Contex

本文主要是介绍OpenVINO 2021r2 - Remote Blob API of GPU Plugin 示例复现(二) Inference within User-Supplied Shared Contex,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天再试试官方文档Remote Blob API of GPU Plugin里面的另一个例子Running GPU Plugin Inference within User-Supplied Shared Context,大概的意思就是由用户提供自己的OpenCL context,OpenVINO的clDNN利用用户共享的context来跑inference (对应的场景应该是用户已经有了自己的OpenCL实现的应用,然后要把OpenVINO GPU推理功能集成进自己应用的场景)。

 

官网的例子只给出了一部分代码片段,看的云山雾罩的,但是有了前一次的经验,感觉实现起来并不难,大致就是利用用户OCL对象的context来转换成remote context,创建ExecuableNetwork的时候把remote context传进去,这样clDNN里面所有OCL的操作都会基于用户提供这个context, 而不会创建自己独立的context. 另外输入输出的数据共享可以通过shared blob把OV推理网络的输入和输出层的数据指向用户自己创建的cl_mem内存对象即可。

 

GPU RemoteBlob API推理代码的实现

		/********************* Init OpenCL Device ***************************************///模拟3个用户从外面传进来的OpenCL对象(user_context,user_device,user_queue) 后面的//OpenVINO的IE clDNN都基于这个用户提供的OpenCL context来创建cl::Context user_context;cl::Device user_device;cl::CommandQueue user_queue;// get Intel iGPU OCL device, create context and queue{const unsigned int refVendorID = 0x8086;cl_uint n = 0;cl_int err = clGetPlatformIDs(0, NULL, &n);// Get platform liststd::vector<cl_platform_id> platform_ids(n);err = clGetPlatformIDs(n, platform_ids.data(), NULL);for (auto& id : platform_ids) {cl::Platform platform = cl::Platform(id);std::vector<cl::Device> devices;platform.getDevices(CL_DEVICE_TYPE_GPU, &devices);for (auto& d : devices) {if (refVendorID == d.getInfo<CL_DEVICE_VENDOR_ID>()) {user_device = d;user_context = cl::Context(user_device);break;}}}cl_command_queue_properties props = CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE;user_queue = cl::CommandQueue(user_context, user_device, props);}.../*********** 开始演示OpenVINO Shared GPU context的用法 *******************//* 使用这种方法 IE/clDNN初始化时不会自己创建新的OpenCL ctx, 而是基于用户提供的OCL ctx来创建 *///create remote context, 先基于用户的OCL ctx创建remote contextauto remote_context = gpu::make_shared_context(ie, FLAGS_d, user_context.get());//创建shared execute network时, clDNN基于remote OCL context来初始化auto exec_net_shared = ie.LoadNetwork(network, remote_context);// inference using remote blobauto inf_req_shared = exec_net_shared.CreateInferRequest();auto dims = network.getInputsInfo().begin()->second->getTensorDesc().getDims();size_t imSize = dims[1] * dims[2] * dims[3];cout << "imSize = " << imSize << " dims[1]=" << dims[1] << " dims[2]=" << dims[2] << " dims[3]=" << dims[3] << endl << endl;size_t num_channels = dims[1];size_t image_size = dims[3] * dims[2];//prepare input image data/** Iterate over all pixel in image (b,g,r) **/unsigned char *ImageBuffer;ImageBuffer = (unsigned char *)malloc(imSize);unsigned char* pixels = (unsigned char*)(jpg.data);for (size_t pid = 0; pid < image_size; pid++) {/** Iterate over all channels **/for (size_t ch = 0; ch < num_channels; ++ch) {/**          [images stride + channels stride + pixel id ] all in bytes            **/ImageBuffer[ch * image_size + pid] = pixels[pid*num_channels + ch];//set input data to 0//ImageBuffer[ch * image_size + pid] = 0;}}//这里模拟用户自己的OCL ctx创建的一个cl::Buffer, 用来放推理的输入数据cl_int err;cl::Buffer shared_buffer(user_context, CL_MEM_READ_WRITE, imSize, NULL, &err);{void *buffer = ImageBuffer;user_queue.enqueueWriteBuffer(shared_buffer, true, 0, imSize, buffer);}//将这个cl::Buffer转成shared blobBlob::Ptr shared_blob = gpu::make_shared_blob(network.getInputsInfo().begin()->second->getTensorDesc(), remote_context,shared_buffer);//将推理网络的输入部分指向这个shared blob, 推理时会从这个blob里读数据inf_req_shared.SetBlob(network.getInputsInfo().begin()->first, shared_blob);//这里是已知用的是squeezenet, 输出是1000个FP32的数据,所以创建2个FP32 [1000]的数组size_t outputSize = 1000 * 4;float *C = new float[1000];float *D = new float[1000];for (int i = 0; i < 1000; i++){C[i] = 0;D[i] = 0;}//这里模拟用户自己的OCL ctx创建的一个cl::Buffer, 用来放推理输出的数据cl::Buffer shared_output_buffer(user_context, CL_MEM_READ_WRITE, outputSize, NULL, &err);{void *buffer = ImageBuffer;//将输出Buffer清零user_queue.enqueueWriteBuffer(shared_output_buffer, true, 0, sizeof(float)*1000, C);}//将输出的cl::Buffer转成shared blobBlob::Ptr shared_output_blob = gpu::make_shared_blob(network.getOutputsInfo().begin()->second->getTensorDesc(), remote_context,shared_output_buffer);//将推理网络输出数据层替换成这个shared blob, 这样推理输出的数据就会放到shared_output_buffer里inf_req_shared.SetBlob(network.getOutputsInfo().begin()->first, shared_output_blob);inf_req_shared.Infer();// Copy the output data back to the host//从shared_output_buffer里读出推理结果,放到数组D里user_queue.enqueueReadBuffer(shared_output_buffer, CL_TRUE, 0, sizeof(float) * 1000, D);for (int i = 0; i < 1000; i++){//如果D数组的值大于0.0001, 则输出D数组的数据,数组的index对应1000组分类的indexif (D[i] > 0.0001){cout << "C[" << i << "] = " << C[i] << " - D[" << i << "] = " << D[i] << endl;}//可以看到输出分类信息和普通infernece输出结果一致,但是输出数据放在用户的cl::Buffer里}

 

编译运行程序,得到结果

 

和上一篇OpenCL Kernel Execution on a Shared Buffer例子的输出一致,收工 :)

 

个人感受:

OV的2个例子shared buffer和shared context的思路基本是一致的。因为GPU里运行的不同程序也和CPU这边的多进程程序一样,不同进程之间的数据是相互隔离的。所以要想共享GPU多个程序之间的数据,最简单的方法就是多个程序共享同一个OCL的context来创建, 也就是互相认干爹,有了同一个context爸爸,数据自然也就能互相访问了 :)

 

最后完整项目奉上,仅供参考

https://gitee.com/tisandman/cl_ov_sharing_ctx

这篇关于OpenVINO 2021r2 - Remote Blob API of GPU Plugin 示例复现(二) Inference within User-Supplied Shared Contex的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/301006

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

pandas中位数填充空值的实现示例

《pandas中位数填充空值的实现示例》中位数填充是一种简单而有效的方法,用于填充数据集中缺失的值,本文就来介绍一下pandas中位数填充空值的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是中位数填充?为什么选择中位数填充?示例数据结果分析完整代码总结在数据分析和机器学习过程中,处理缺失数

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Mysql用户授权(GRANT)语法及示例解读

《Mysql用户授权(GRANT)语法及示例解读》:本文主要介绍Mysql用户授权(GRANT)语法及示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql用户授权(GRANT)语法授予用户权限语法GRANT语句中的<权限类型>的使用WITH GRANT