使用numba cuda 加速Python运算

2023-11-20 21:44

本文主要是介绍使用numba cuda 加速Python运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用numba cuda 加速Python运算

  • 1.随机数生成
  • 参考文献

习惯了cuda c,可能会认为cuda和c才是黄金档搭。

Python作为一种开发效率比较高的脚本语言,有助于我们快速实现某种功能。

但是Python执行效率极其之慢。

这种情况下,用cuda的高并发特性,来提升Python执行速度,是一种很好的选择。

1.随机数生成

随机数生成是一项很重要的功能。

当Python自带的random,np.random在cuda函数中无法直接使用时,这是一个非常头疼的事。

有一个方法是将随机数/序列提前在cuda函数外实现好,再传递给cuda核函数使用,但是这就要占用cuda的显存,同时还要考虑加载数据的时间。

幸好的事numba提供了numba.cuda.random,可以便于我们生成随机数。

numba random官方网页中提供了一个示例,通过均匀分布来实现pi的计算。

由于numba.cuda.random.xoroshiro128p_normal_float64默认生成 N ( 0 , 1 ) N(0,1) N(0,1)分布序列。

这里提供一个使用numba.cuda.random来生成复合高斯分布(如均值为100,方差为30的)的随机数:

N ( μ , s i g m a ) N(\mu,sigma) N(μ,sigma)分布的序列转成 N ( 0 , 1 ) N(0,1) N(0,1),标准化公式为:

y = x − μ δ \qquad\qquad y=\cfrac{x-\mu}{\sqrt{\delta}} y=δ xμ

故从有 N ( 0 , 1 ) N(0,1) N(0,1)分布的序列转成 N ( μ , s i g m a ) N(\mu,sigma) N(μ,sigma)分布,为:

y = δ ⋅ x + μ \qquad\qquad y=\sqrt{\delta} \cdot x+\mu y=δ x+μ

代码如下:

from numba import cuda
from numba.cuda.random import create_xoroshiro128p_states, xoroshiro128p_normal_float64import numpy as np
import math@cuda.jit
def random_gen(rng_states,  out):"""Find the maximum value in values and store in result[0]"""thread_id = cuda.grid(1)print("thread_id",thread_id)out[thread_id]=xoroshiro128p_normal_float64(rng_states, thread_id)out[thread_id]=int(out[thread_id]*math.sqrt(30)+100)threads_per_block = 16
blocks = 16
rng_states = create_xoroshiro128p_states(threads_per_block * blocks, seed=1)
out = np.zeros((threads_per_block * blocks), dtype=np.float32)
out_d = cuda.to_device(out)
random_gen[blocks, threads_per_block](rng_states, out_d)
out = out_d.copy_to_host()
print('\n', out)

产生如下序列:

 [ 92. 100.  97. 101.  95. 103. 101. 105.  92. 101. 100.  97.  91.  90.97. 104. 100.  98.  97. 102. ...]

用numpy可求得均值和方差分别为:

99.609375  30.902099609375

生成整数随机序列,可以通过均匀分布,再经过适当放缩、平移实现,如采用(0,1)均匀分布实现[0,100]整数的均匀采样:

int(100*xoroshiro128p_uniform_float64(rng_states, col))

参考文献

[1] https://numba.readthedocs.io/en/stable/
[2] 基于 Numba 的 CUDA Python 编程简介
[3] https://numba.pydata.org/numba-doc/latest/cuda/random.html

这篇关于使用numba cuda 加速Python运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397640

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.