如何用CuPy来对Numpy进行700倍加速

2024-06-21 09:18
文章标签 进行 加速 numpy 700 cupy

本文主要是介绍如何用CuPy来对Numpy进行700倍加速,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:George Seif

编译:ronghuaiyang

导读

给大家试试GPU的威力!

640?wx_fmt=jpeg

Numpy是Python社区的一份大礼。它允许数据科学家、机器学习使用者和统计学家以一种简单有效的方式处理矩阵格式的大量数据。

即使就其本身而言,Numpy在速度方面已经比Python有了很大的提升。当你发现自己Python代码运行缓慢,尤其是如果你看到很多的for循环,使用Numpy总是一个好主意,将数据处理成Numpy并让其向量化工作,可以得到最高速度!

尽管如此,Numpy只在CPU上运行。对于通常只有8个或更少内核的消费级cpu,并行处理的数量以及因此可以达到的加速速度是有限的。

这时候,该我们的新朋友CuPy出场了!

什么是CuPy?

CuPy是一个库,它利用CUDA GPU库在Nvidia GPU上实现Numpy数组的运算功能。有了这个实现,由于gpu的CUDA核有很多,可以实现更好的并行加速。

640?wx_fmt=png

CuPy的接口是Numpy的镜像,在大多数情况下,它可以作为直接的替代。只要用兼容的CuPy代码替换你的Numpy代码,你就可以加使用GPU加速了。CuPy支持Numpy的大多数数组操作,包括索引、广播、数组上的数学运算和各种矩阵转换。

你也可以编写自定义的Python代码,利用CUDA和GPU加速,如果你有一些具体的东西还不支持。所需要的只是c++格式的一小段代码,CuPy将自动执行GPU转换,非常类似于使用Cython

要开始与CuPy,我们可以通过pip安装库:

 pip install cupy

使用CuPy跑在GPU上

对于这些基准测试,我将使用以下配置的PC机进行测试:

  • i7-8700k的CPU

  • 1080 Ti GPU

  • 32gb的DDR4 3000MHz内存

  • CUDA 9.0

一旦安装了CuPy,我们可以像Numpy一样导入它:

 import numpy as np
 import cupy as cp
 import time

对于剩下的代码,在Numpy和CuPy之间切换就像用CuPy的cp替换Numpy的np一样简单。下面的代码为Numpy和CuPy创建了一个包含10亿个1的3D数组。为了测量创建数组的速度,我使用了Python的原生“time”库:

 ### Numpy and CPU
 s = time.time()
 x_cpu = np.ones((1000,1000,1000))
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu = cp.ones((1000,1000,1000))
 e = time.time()
 print(e - s)

非常容易!

令人难以置信的是,即使这只是一个数组创建,CuPy仍然要快得多。Numpy在1.68秒内创建了包含10亿个1的数组,而CuPy只花了0.16秒,这是10.5倍的加速!

但我们还可以做得更多。

让我们试着对数组做一些数学运算。这次我们将整个数组乘以5,再次检查Numpy和CuPy的速度。

 ### Numpy and CPU
 s = time.time()
 x_cpu *= 5
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu *= 5
 e = time.time()
 print(e - s)

在本例中,CuPy吊打Numpy,Numpy花了0.507s,CuPy只花了0.000710s,这是714.1倍的加速!

现在让我们尝试使用多个数组并执行一些操作。下面的代码将做以下工作:

  1. 将数组乘以5

  2. 将数组与本身相乘

  3. 将数组加上自己

 ### Numpy and CPU
 s = time.time()
 x_cpu *= 5
 x_cpu *= x_cpu
 x_cpu += x_cpu
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu *= 5
 x_gpu *= x_gpu
 x_gpu += x_gpu
 e = time.time()
 print(e - s)

在本例中,Numpy在CPU上以1.49秒的时间执行完该进程,而CuPy在GPU上以0.0922秒的时间执行完该进程,仍然有16.16倍加速!

是不是超级快?

使用CuPy是在GPU上多次加速Numpy和矩阵运算的好方法。需要注意的是,你将获得的加速高度依赖于你正在处理的数组的大小。下表显示了我们改变数组大小时的速度差异:

640?wx_fmt=png

一旦我们达到大约1000万个数据点,速度就会大大加快,而一旦超过1亿个数据点,速度就会大大加快。在此之下,Numpy实际上更快。此外,请记住,更多的GPU内存将帮助你处理更多的数据,所以很重要的是看看你的GPU是否有足够的内存,以适应足够的数据,CuPy是值得的。

640?wx_fmt=png

—END—

英文原文:https://towardsdatascience.com/heres-how-to-use-cupy-to-make-numpy-700x-faster-4b920dda1f56

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧640?wx_fmt=gif

这篇关于如何用CuPy来对Numpy进行700倍加速的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080816

相关文章

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

一文解密Python进行监控进程的黑科技

《一文解密Python进行监控进程的黑科技》在计算机系统管理和应用性能优化中,监控进程的CPU、内存和IO使用率是非常重要的任务,下面我们就来讲讲如何Python写一个简单使用的监控进程的工具吧... 目录准备工作监控CPU使用率监控内存使用率监控IO使用率小工具代码整合在计算机系统管理和应用性能优化中,监

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、

SpringBoot结合Docker进行容器化处理指南

《SpringBoot结合Docker进行容器化处理指南》在当今快速发展的软件工程领域,SpringBoot和Docker已经成为现代Java开发者的必备工具,本文将深入讲解如何将一个SpringBo... 目录前言一、为什么选择 Spring Bootjavascript + docker1. 快速部署与

linux解压缩 xxx.jar文件进行内部操作过程

《linux解压缩xxx.jar文件进行内部操作过程》:本文主要介绍linux解压缩xxx.jar文件进行内部操作,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、解压文件二、压缩文件总结一、解压文件1、把 xxx.jar 文件放在服务器上,并进入当前目录#

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC(GoogleRemoteProcedureCall)是一种高性能、开源的远程过程调用(RPC)框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb