学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】

2024-01-16 06:12

本文主要是介绍学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在NPU上做深度学习算法

  • 场景和功能说明
  • 系统信息查询
    • 1、场景一:非NPU上训练的模型推理
      • 1.1 执行方案
        • 学习案例
      • 1.2 CPU/GPU训练的模型转.ONNX模型
      • 1.3 onnx转om
      • 1.4 om推理

昇腾社区链接: 昇腾社区-官网丨昇腾万里 让智能无所不及

场景和功能说明

  • 第一种:在cpu或gpu上训练的模型,但要在NPU上执行模型推理;
  • 第二种:在NPU上同步训练、推理。

系统信息查询

中括号里的为查询结果示例。
– 查看系统架构:uname -a [aarch64,也称arm64]
– 查看操作系统版本:lsb_release -a [Ubuntu 22.04.3 LTS]
– 查看npu芯片型号:npu-smi info [Ascend310B4]
– 查看npu id:npu-smi info -l
– 查看Atlas产品型号:npu-smi info -t product -i <npu id> [Atlas 200I A2]

1、场景一:非NPU上训练的模型推理

此种使用场景下,cpu或gpu上训练的模型无法直接在nup上执行推理,需要先把训练好的模型转换成.om离线模型,才可以在NPU上执行后续的推理。

1.1 执行方案

step1:在已安装CANN开发环境的机器上,把cpu或gpu上训练的模型转换成.onnx格式 或 pd格式
step2:在安装CANN运行环境的机器上,把onnx格式转om格式。
对应CANN开发环境运行环境的区别、安装方法见官方文档:CANN软件安装

学习案例

① 官方gitee项目-支持tensorflow、pytorch的模型转换 这里已经集成了多种开源模型从初始模型 —> onnx模型 —> om模型转换操作步骤对应代码

  • 第一阶段:模型转onnx需要写代码完成;
  • 第二阶段:.onnx转.om使用atc命令完成,无须写代码。

② 仅onnx模型 —> om模型的转换案例:昇腾社区简单ATC转换案例
③ om模型的推理应用案例 这里的快速链接是昇腾社区下pytorch的应用案例,昇腾社区也集成了其他训练框架的应用案例,可自行查看。
④ 其他网友的分享:[推理部署]🌔ONNX推理加速技术文档-杂记

1.2 CPU/GPU训练的模型转.ONNX模型

以下是基于 bert_base_chinese预训练模型转onnx 改写的转换代码:

  • 源文件:基于bert_base_chinese模型微调后的.pt模型文件
  • 目标:把.pt转换成.onnx
import torch
import onnx
import numpy as np
import onnxruntime
from init.init_config import ModelConfig'''
1、pth文件转onnx:pytorch框架中集成了onnx模块,属于官方支持,onnx也覆盖了pytorch框架中的大部分算子。因此将pth模型文件转换为onnx文件非常简单。参考:https://zhuanlan.zhihu.com/p/524023964?utm_id=0
2、.pth转.onnx可以在任意机器上执行,只要有python并安装了对应依赖包即可,既可以是普通windows x86_64 gpu/cpu,也可以是linux Ascend310B4(昇腾 310B4 npu卡)
3、本文件中:
① 使用的是“基于bert-base-chinese微调的模型”,微调时的输入样本只有一个序列,所以训练时把token_type_ids也省略了;
② 和原始bert-base-chinese预训练模型input_shape=(batch_size,max_len)不同,微调训练使用的input_shape=(src_len,batch_size), attention_mask_shape=(batch_size,src_len), src_len是固定的512。
注意:Atlas 200/500 A2推理产品不支持动态Shape输入(设置Shape范围)。 详见官方文档 https://www.hiascend.com/document/detail/zh/canncommercial/70RC1/inferapplicationdev/aclpythondevg/aclpythondevg_0060.html
'''model_path = 'E:\\opencode\\13-02-BertWithPretrained-main\\cache1\\ner_model_epoch1_steps1000.pt'  # 微调后的模型文件
onnx_path = "./ner_model_bert.onnx"  # 定义onnx模型保存地址。固定max_len=512
# 注意token_id的shape=(src_len, batch_size)
input_shape = (512, 1)# todo 这里和原始模型在CPU或GPU上的加载方式保持一样。这里代码省略。。。。
model_config = ModelConfig()def load_torch_model():invoice_model = model_config.model# 在导出模型之前必须调用 model.eval() 或 model.train(False),因为这会将模型设置为“推理模式”。 这是必需的,因为 dropout 或 batchnorm 等运算符在推理和训练模式下的行为有所不同。invoice_model.eval()return invoice_modeldef onnx_model_predict(onnx_path, dummy_input):# 创建会话,用于推理'''这里 onnxruntime.InferenceSession(model_path) 就是加载模型的步骤,ONNX Runtime 会在内部执行模型的验证。如果模型有问题,ONNX Runtime 将在加载过程中引发异常。因此,在使用 ONNX Runtime 进行推理时,你通常不需要显式地调用 onnx.load(onnx_path) 和 onnx.checker.check_model(onnx_model)。 # 模型加载onnx_model = onnx.load(onnx_path)onnx.checker.check_model(onnx_model)'''ort_session = onnxruntime.InferenceSession(onnx_path)# 获取模型的输入"input"inputs = ort_session.get_inputs()# bert基础模型设置:定义模型的输入{"input":numpys数组-不是tensor}和输出 ["output"]padding_mask = np.transpose((dummy_input == 0))# 省略token_type_ids的写法,和源模型转onnx时的input保持一致!ort_inputs = {inputs[0].name: dummy_input,inputs[1].name: padding_mask}outputs = ort_session.get_outputs()output_name = [outputs[0].name]# 模型推理ort_outs = ort_session.run(output_name, ort_inputs)return ort_outsdef export_config(token_ids, padding_mask, keep=True):'''使用的是bert-base-chinese模型,常规输入包含input_ids、attention_mask、token_type_ids:param token_ids: 句子输入编码:param padding_mask: 掩码:param keep: 是否保留token_type_ids:return:'''output_names = ["out"]if keep:input_data = (token_ids,padding_mask,token_ids)input_names = ["input_ids", "attention_mask", "token_type_ids"]dynamic_axes = {"input_ids": {0: "B"},"attention_mask": {0: "B"},"token_type_ids": {0: "B"},"out": {0: "B"}}else:input_data = (token_ids,padding_mask)input_names = ["input_ids", "attention_mask"]dynamic_axes = {"input_ids": {0: "B"},"attention_mask": {0: "B"},"out": {0: "B"}}return input_data, input_names, output_names, dynamic_axesdef torch2onnx(dummy_input):torch_model = load_torch_model(model_path)token_ids = torch.from_numpy(dummy_input)  # numpy.ndarray转torch.tensor# bert基础模型设置padding_mask = (token_ids == 0).transpose(0, 1)# build data# 因为这里使用的是“基于bert-base-chinese微调的模型”,微调时的输入样本只有一个序列,所以token_type_ids可省略input_data, input_names, output_names, dynamic_axes = export_config(token_ids, padding_mask, keep=False)# onnx模型导出:verbose--是否打印日志torch.onnx.export(torch_model, input_data, onnx_path,verbose=True,opset_version=11,dynamic_axes=dynamic_axes,input_names=input_names,output_names=output_names)# 测试模型是否合理# 模型加载onnx_model = onnx.load(onnx_path)# 检查onnx模型转换是否合理onnx.checker.check_model(onnx_model)def onnx_predict(dummy_input, onnx_path):# 1、原始torch模型加载和推理origin_model = load_torch_model(model_path)input_sample_tensor = dummy_inputif isinstance(dummy_input, np.ndarray):input_sample_tensor = torch.from_numpy(dummy_input).to(device)torch_out = origin_model(input_sample_tensor).detach().numpy()# 2、onnx模型加载和推理ort_outs = onnx_model_predict(onnx_path, dummy_input)# 3、结果对比# todo 使用numpy的测试工具,检查两个数组是否在给定的相对和绝对误差范围内相等。np.testing.assert_allclose是一个测试断言语句,如果检查失败(即输出不在指定误差范围内),将引发 AssertionError,从而提示测试失败。#  (1)检查形状:确保 torch_out 和 ort_outs[0] 的形状相同。 (2)检查数值相等性: 对每个对应的元素,检查其数值是否在相对误差 (rtol) 和绝对误差 (atol) 允许的范围内。np.testing.assert_allclose(torch_out, ort_outs[0], rtol=1e-01, atol=1e-5)print(torch_out[:10])print(ort_outs[0][:10])print("convert success")if __name__ == "__main__":# #(方案1)随机型:在测试转换前后的误差时,需要传递同一输入值# input_sample = np.random.randn(*input_shape).astype(np.float32)# # (方案2)固定值型device = torch.device("cuda" if torch.cuda.is_available() else "cpu")dummy_input = np.ones(input_shape).astype(np.long)# 普通模型转onnxtorch2onnx(dummy_input)# 简单测试转换前后的精度差异onnx_predict(dummy_input, onnx_path)

1.3 onnx转om

具体指令参考 昇腾社区简单ATC转换案例

1.4 om推理

这篇关于学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/611559

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

MyCat分库分表的项目实践

《MyCat分库分表的项目实践》分库分表解决大数据量和高并发性能瓶颈,MyCat作为中间件支持分片、读写分离与事务处理,本文就来介绍一下MyCat分库分表的实践,感兴趣的可以了解一下... 目录一、为什么要分库分表?二、分库分表的常见方案三、MyCat简介四、MyCat分库分表深度解析1. 架构原理2. 分

Python进行word模板内容替换的实现示例

《Python进行word模板内容替换的实现示例》本文介绍了使用Python自动化处理Word模板文档的常用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友... 目录技术背景与需求场景核心工具库介绍1.获取你的word模板内容2.正常文本内容的替换3.表格内容的