pointpillars点云算法TensorRT环境加速系列三

2024-01-11 01:48

本文主要是介绍pointpillars点云算法TensorRT环境加速系列三,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简述

  在之前的两篇博客基础上,继续写下通过TensorRT加速onnx模型的速度与精度提升了多少,主要是通过github上开源的代码onnx_tensorrt来优化加载onnx进行加速。onnx_tensorrt环境配置有点麻烦,需要相对应的onnx与tensorrt与onnx_tensorrt的版本。我的版本为:onnx = 1.4.0 + tensorrt = 5.1.5.0 + onnx_tensorrt = 5.1 。 NVIDIA官方issues里面有许多关于tensorrt版本的问题,不过建议按照对应的成功版本,按照onnx_tensorrt的步骤进行安装onnx_tensorrt库。当然,文末有我提交docker版本的onnx_tensorrt镜像。另外:我的之前两篇pointpillars点云算法链接如下:

pointpillars点云算法TensorRT环境加速系列一

pointpillars点云算法TensorRT环境加速系列二

  同时,我的主要代码会提交到github上面:点击传送门。如果觉得有用,还请star一下哈。

Compare pfe.onnx ONNX with TensorRT

  首先我们来进行pfe.onnx模型验证,通过两种方式进行加载:1、直接通过onnx方式进行加载预测;2、通过onnx_tensorrt进行加载来优化加速;注:因为之前博客已经对比过onnx加载输出与原始的pytorch模型对比过精度,损失系数在小数点后三位。那么,我们现在直接用onnx_tensorrt加速对比onnx方式即可。

  onnx方式直接加载,请参考我的上一篇博客,下面我们来看下通过onnx_tensorrt加速优化的主要部分代码:

def tensorrt_backend_pfe_onnx():pillar_x = np.ones([1, 1, 12000, 100], dtype=np.float32)pillar_y = np.ones([1, 1, 12000, 100], dtype=np.float32)pillar_z = np.ones([1, 1, 12000, 100], dtype=np.float32)pillar_i = np.ones([1, 1, 12000, 100], dtype=np.float32)num_points_per_pillar = np.ones([1, 12000], dtype=np.float32)x_sub_shaped = np.ones([1, 1, 12000, 100], dtype=np.float32)y_sub_shaped = np.ones([1, 1, 12000, 100], dtype=np.float32)mask = np.ones([1, 1, 12000, 100], dtype=np.float32)pfe_inputs = [pillar_x, pillar_y, pillar_z, pillar_i, num_points_per_pillar,x_sub_shaped, y_sub_shaped, mask]print("pfe_inputs length is : ", len(pfe_inputs))start = time.time()pfe_model = onnx.load("pfe.onnx")engine = backend.prepare(pfe_model, device="CUDA:0", max_batch_size=1)for i in range(1, 1000):pfe_outputs = engine.run(pfe_inputs)end = time.time()print('inference time is : ', (end - start)/1000)print(pfe_outputs)

  Now,看完主要的tensorrt的测试代码,看一下通过onnx_tensorrt优化后的输出与onnx直接加载方式的输出对比吧。

Compare rpn.onnx ONNX with TensorRT

  Ok,我们接下来需要对rpn.onnx来对比tensorrt的加速精度。由于中间涉及pillarscatter网络,我们目前就单独测试rpn.onnx的输出精度与onnx加载rpn.onnx的输出精度。

  rpn.onnx(onnx直接加载的方式同理参考上一篇博客即可)经过tensorrt优化的加速代码如下:

def tensorrt_backend_rpn_onnx():rpn_input_features = np.ones([1, 64, 496, 432], dtype=np.float32)rpn_start_time = time.time()rpn_model = onnx.load("rpn.onnx")engine = backend.prepare(rpn_model, device="CUDA:0", max_batch_size=1)for i in range(1, 1000):rpn_outputs = engine.run(rpn_input_features)rpn_end_time = time.time()print('rpn inference time is : ', (rpn_end_time - rpn_start_time)/1000)print(rpn_outputs)

  我们来对比一下rpn.onnx模型经过onnx直接加载方式与tensorrt优化的对比输出结果:(注:此处的rpn输出与上一篇博客数据不同,主要原因在于这里rpn输入是设置np.ones矩阵,上一篇是直接接PillarScatter网络的输出作为输入。)

ONNX与TensorRT的时间对比如下
Time/spre-processpfe.onnxpillarscatterrpn.onnxpost-processall
onnxN/A0.26035N/A0.198846N/AN/A
tensorrtN/A0.01116N/A0.0187535N/AN/A

  上面表格中可以看出pfe.onnx与rpn.onnx的计算性能提升对比,N/A代表还未进行测试。目前只是单独测试了一下,并没有进行系统测试,数据仅供参考。

onnx_tensorrt的docker镜像源:

docker pull smallmunich/onnx_tensorrt:latest
小结

  由于pfe.onnx与rpn.onnx中间嵌入了一个pillarscatter网络,所以系统测试的话需要对其进行改写,后期可能会将这部分的torch代码修改为纯python版本来进行全程测试吧。目前单独测试pfe.onnx与rpn.onnx精度损失较少,速度优化很大提升。后面,可能系统测试一下整体的速度优化比例,用python代码实现pillarscatter部分网络,具体请等待我的github更新。

参考文献

https://arxiv.org/abs/1812.05784

https://github.com/SmallMunich/nutonomy_pointpillars

https://blog.csdn.net/Small_Munich/article/details/101559424

https://blog.csdn.net/Small_Munich/article/details/102073540

这篇关于pointpillars点云算法TensorRT环境加速系列三的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/592753

相关文章

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

Redis在windows环境下如何启动

《Redis在windows环境下如何启动》:本文主要介绍Redis在windows环境下如何启动的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Redis在Windows环境下启动1.在redis的安装目录下2.输入·redis-server.exe

Pytest多环境切换的常见方法介绍

《Pytest多环境切换的常见方法介绍》Pytest作为自动化测试的主力框架,如何实现本地、测试、预发、生产环境的灵活切换,本文总结了通过pytest框架实现自由环境切换的几种方法,大家可以根据需要进... 目录1.pytest-base-url2.hooks函数3.yml和fixture结论你是否也遇到过

浅谈配置MMCV环境,解决报错,版本不匹配问题

《浅谈配置MMCV环境,解决报错,版本不匹配问题》:本文主要介绍浅谈配置MMCV环境,解决报错,版本不匹配问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录配置MMCV环境,解决报错,版本不匹配错误示例正确示例总结配置MMCV环境,解决报错,版本不匹配在col

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Centos环境下Tomcat虚拟主机配置详细教程

《Centos环境下Tomcat虚拟主机配置详细教程》这篇文章主要讲的是在CentOS系统上,如何一步步配置Tomcat的虚拟主机,内容很简单,从目录准备到配置文件修改,再到重启和测试,手把手带你搞定... 目录1. 准备虚拟主机的目录和内容创建目录添加测试文件2. 修改 Tomcat 的 server.X