《jetson系列编译部署libtorch》

2024-05-24 07:58

本文主要是介绍《jetson系列编译部署libtorch》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 安装
  • 模型转换
  • 测试
    • 测试环境
    • Makefile
    • main.cpp
    • 测试
    • what(): PyTorch is not linked with support for cuda devices
    • conversion to non-scalar type torch::jit::load("model.pt")
    • cannot open shared object file: No such file or directory
  • 参考链接

jetson系列编译部署libtorch


安装

  • 查看设备cuda版本
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Feb_28_22:34:44_PST_2021
Cuda compilation tools, release 10.2, V10.2.300
Build cuda_10.2_r440.TC440_70.29663091_0
  • 官网下载对应编译库Start Locally | PyTorch,jetson系列无法使用,会提示版本不符合,需要自己编译

  • 根据Jetpack版本,去论坛找相应源码[PyTorch for Jetson - version 1.9.0 now available]

  • 安装依赖环境

sudo apt-get update 
sudo apt-get upgrade
sudo apt-get install python3-pip libopenblas-base libopenmpi-dev
pip3 install Cython
  • 编译pytorch
sudo pip3 install torch-1.9.0-cp36-cp36m-linux_aarch64.whl
  • 查看安装版本
pip3 list | grep torch

模型转换

  • pytorch模型转化为libtorch的torchscript模型(.pth—>.pt)
def convert_model(model, path_out, img_tensor, running_mode='gpu'):if running_mode == 'gpu' and torch.cuda.is_available():print("gpu")device = torch.device("cuda:0")model = model.cuda(device)      # mdoel.to(device)model.load_state_dict(torch.load(path_model), strict=False)img_tensor = img_tensor.to(device)else:print("cpu")# device = torch.device('cpu')model.load_state_dict(torch.load(path_model, map_location='cpu'), strict=False)model.eval()traced_script_module = torch.jit.trace(model, img_tensor)traced_script_module.save(path_out)

测试

测试环境

  • jetson nano 4G
  • torch 1.10.0
  • torchvision 0.11
  • JetPack 4.6
  • ubuntu 18.06.
  • cuda 10.2

Makefile

TARGET  := demo
SOURCE := main.cpp
OBJS := main.o
CXX      := g++
LIBS    := -lc10 -lc10_cuda -ltorch_cuda -ltorch -lshm -ltorch_cpu
LDFLAGS := -L/usr/local/lib/python3.6/dist-packages/torch/lib
DEFINES := 
INCLUDE := -I./ -I/usr/local/lib/python3.6/dist-packages/torch/include -I/usr/local/lib/python3.6/dist-packages/torch/include/torch/csrc/api/include
CFLAGS  := -g -Wall -O3 $(DEFINES) $(INCLUDE) -fPIC
PKGS	:= opencv4
LIBS	+= `pkg-config --libs $(PKGS)`
CFLAGS	+= `pkg-config --cflags $(PKGS)`
CXXFLAGS:= $(CFLAGS) -DHAVE_CONFIG_H -std=c++14 -Wunused-function -Wunused-variable -Wfatal-errors
CXXFLAGS += -Wl,--no-as-needed -ltorch_cuda.PHONY : everything objs clean veryclean rebuild
everything : $(TARGET)
all : $(TARGET) 
objs : $(OBJS) 
rebuild: veryclean everythingclean :rm -rf $(OBJS)rm -rf *.o
veryclean : cleanrm -fr $(TARGET)
%.o : %.cpp$(CXX) $(CXXFLAGS) -c $< -o $@
$(TARGET) : $(OBJS)$(CXX) $(CXXFLAGS) -o $@ $(OBJS) $(LDFLAGS) $(LIBS)

main.cpp

#include <iostream>
#include <opencv2/opencv.hpp>
#include <torch/torch.h>
#include <torch/script.h>int main(){cv::Mat img, img_tmp, img_float;char *model_path = "test.pt";torch::jit::script::Module module = torch::jit::load(model_path);module.to(at::kCUDA);char *img_path = (char *)"1.jpg";img = cv::imread(img_path, -1);if(img.empty()){printf("error open img file:[%s]\n", img_path);return -1;}cv::cvtColor(img, img_tmp, cv::COLOR_BGR2RGB);cv::resize(img_tmp, img_tmp, cv::Size(120, 70));img_tmp.convertTo(img_float, CV_32F, 1.0 / 255); // ->(0,1)// batchsize rows, cols, channels,   B,H,W,Ctorch::Tensor img_tensor = torch::from_blob(img_float.data, {1, img_float.rows, img_float.cols, img_float.channels()}, torch::kFloat32);img_tensor = img_tensor.permute({0, 3, 1, 2});  // ->B, C, H, Wfloat mean_[] = {0.5, 0.5, 0.5};float std_[] = {0.5, 0.5, 0.5};for(int i = 0; i < 3; i++){ // normalize->(-1,1)img_tensor[0][i] = img_tensor[0][i].sub_(mean_[i]).div_(std_[i]);}torch::Tensor img_tensor_cuda = img_tensor.cuda();torch::Tensor result = module.forward({img_tensor_cuda}).toTensor();auto max_result = result.max(1, true);auto max_ind = std::get<1>(max_result).item<float>();std::cout << max_ind << std::endl;std::cout << "CUDA:   " << torch::cuda::is_available() << std::endl;std::cout << "CUDNN:  " << torch::cuda::cudnn_is_available() << std::endl;std::cout << "GPU(s): " << torch::cuda::device_count() << std::endl;return 0;
}

测试

  • 使用100张128 * 72图片
CPU内存占比GPU耗时(s)
libtorch50%62.6%46%24.021
pytorch390%55.2%50%32.384

what(): PyTorch is not linked with support for cuda devices

  • 参考Error: “PyTorch is not linked with support for cuda devices” - C++ - PyTorch Forums

  • 不忽略链接时没有用到的动态库torch_cuda,加入以下

CXXFLAGS += -Wl,--no-as-needed -ltorch_cuda

conversion to non-scalar type torch::jit::load(“model.pt”)

  • 参考conversion to non-scalar type torch::jit::load(“model.pt”) · Issue #22382 · pytorch/pytorch · GitHub

  • 输出类型改变,不再是指针类型

std::shared_ptr<torch::jit::script::Module> module = torch::jit::load(model_path);
  • 需要改为以下
torch::jit::script::Module module = torch::jit::load(model_path);

cannot open shared object file: No such file or directory

  • 编译可以通过,但是无法使用
  • 需要将libtorch的lib库加入到环境变量
   export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib/python3.6/dist-packages/torch/lib

参考链接

Start Locally | PyTorch

C++ — PyTorch 1.10.1 documentation

Library API — PyTorch master documentation

这篇关于《jetson系列编译部署libtorch》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997827

相关文章

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

ubuntu如何部署Dify以及安装Docker? Dify安装部署指南

《ubuntu如何部署Dify以及安装Docker?Dify安装部署指南》Dify是一个开源的大模型应用开发平台,允许用户快速构建和部署基于大语言模型的应用,ubuntu如何部署Dify呢?详细请... Dify是个不错的开源LLM应用开发平台,提供从 Agent 构建到 AI workflow 编排、RA

ubuntu16.04如何部署dify? 在Linux上安装部署Dify的技巧

《ubuntu16.04如何部署dify?在Linux上安装部署Dify的技巧》随着云计算和容器技术的快速发展,Docker已经成为现代软件开发和部署的重要工具之一,Dify作为一款优秀的云原生应用... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。它

Nginx部署React项目时重定向循环问题的解决方案

《Nginx部署React项目时重定向循环问题的解决方案》Nginx在处理React项目请求时出现重定向循环,通常是由于`try_files`配置错误或`root`路径配置不当导致的,本文给大家详细介... 目录问题原因1. try_files 配置错误2. root 路径错误解决方法1. 检查 try_f

Android NDK版本迭代与FFmpeg交叉编译完全指南

《AndroidNDK版本迭代与FFmpeg交叉编译完全指南》在Android开发中,使用NDK进行原生代码开发是一项常见需求,特别是当我们需要集成FFmpeg这样的多媒体处理库时,本文将深入分析A... 目录一、android NDK版本迭代分界线二、FFmpeg交叉编译关键注意事项三、完整编译脚本示例四

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小

idea maven编译报错Java heap space的解决方法

《ideamaven编译报错Javaheapspace的解决方法》这篇文章主要为大家详细介绍了ideamaven编译报错Javaheapspace的相关解决方法,文中的示例代码讲解详细,感兴趣的... 目录1.增加 Maven 编译的堆内存2. 增加 IntelliJ IDEA 的堆内存3. 优化 Mave

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的