阿里云GPU服务器上Torch安装与测试

2024-08-28 11:32

本文主要是介绍阿里云GPU服务器上Torch安装与测试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 本文个人博客访问地址: 点击查看

一、介绍

  • 阿里云的GPU也有了竞价服务,每小时大概1块多,还是可以接受的
  • 主要想跑github上的一个论文代码,使用的GPU,(奈何实验室没有GPU), 本来我已经改成CPU版本的了,但是他训练好的模型是基于GPU的,所以还需要重新训练,结果非常的慢…
  • 包含以下内容:
    • 购买竞价GPU
    • 通过SSH连接云服务器
    • 安装Torch、hdf5、cjson、loadcaffe
    • 安装cuda、cudnn、cunn

二、购买GPU服务器

  • 进入阿里云GPU介绍页,点击访问,界面如下,我选择的是GN5(P100)

GPU介绍页
- 选择竞价实例

选择竞价实例
- 选择GPU

选择GPU
- 选择Ubuntu版本和带宽
- 这里按使用流量,所以带宽设置大点没有影响

选择系统和带宽

  • 在控制台可以看到服务器信息,下面需要使用公网IP连接

控制台

三、连接GPU服务器以及软件的安装

1、使用SecureCRT连接服务器

连接服务器

2、安装前准备工作

  • apt clean
  • apt update
  • 安装git命令行:apt install git
  • 生成ssh-key : ssh-keygen -t rsa -C "youremail@example.com"
    • /root/.ssh/id_rsa.pub中内容加入到github

3、安装Torch

  • 网址:http://torch.ch/docs/getting-started.html
  • git clone https://github.com/torch/distro.git ~/torch --recursive
  • cd ~/torch
  • bash install-deps
  • ./install.sh
  • source ~/.bashrc
  • 输入th查看安装是否成功

torch

4、 安装hdf5

  • 地址: https://github.com/deepmind/torch-hdf5/blob/master/doc/usage.md
  • apt-get install libhdf5-serial-dev hdf5-tools
  • git clone https://github.com/deepmind/torch-hdf5
  • cd torch-hdf5
  • luarocks make hdf5-0-0.rockspec LIBHDF5_LIBDIR="/usr/lib/x86_64-linux-gnu/"
    • 注意这里 luarocksTorch 里的,在 /root/torch/install/bin 目录下

5、 安装 cjsonloadcaffe

  • luarocks install lua-cjson
  • apt-get install libprotobuf-dev protobuf-compiler
  • luarocks install loadcaffe

6、安装Cuda

  • 网址:点击查看
  • 选择对应的cuda版本

cuda
- sudo dpkg -i cuda-repo-ubuntu1604-9-1-local_9.1.85-1_amd64.deb
- sudo apt-key add /var/cuda-repo-<version>/7fa2af80.pub
- sudo apt-get update
- sudo apt-get install cuda
- 安装完成后会在/usr/local/目录下出现cuda-9.1的目录
- 加入到环境变量
- echo "export PATH=/usr/local/cuda-9.1/bin/:\$PATH; export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64/:\$LD_LIBRARY_PATH; " >>~/.bashrc && source ~/.bashrc
- 此时cuda已经安装成功,可以通过nvcc -V测试是否安装成功
- nvidia-smi命令查看GPU使用情况

cuda安装测试
- 有时可能需要重启一下

7、安装cudnn

  • 网址1:点击查看
  • 网址2:下载cudnn
    • 需要先注册登录才能下载
  • 注意这里下载的版本,我这里使用的是5.1版本(尝试了最新的7.x版本,有问题)

cudnn版本
- 直接luarocks install cudnn是可以成功安装的,但是有问题
- 下载的是压缩包,里面有两个文件夹

cudnn压缩包
- 将include下的cudnn.h文件拷贝到/usr/local/cuda-9.1/include/文件夹下
- 将lib64下的libcudnn.so.5.1.10文件拷贝到/usr/local/cuda-9.1/lib64/文件夹下
- 并且创建软连接: ln -s libcudnn.so.5.1.10 libcudnn.so.5
- 添加环境变量:export CUDNN_PATH="/usr/local/cuda-9.1/lib64/libcudnn.so.5"

cudnn5.x

四、测试

  • 下面是我跑的一个程序

GPU使用情况

五、其他一些说明

1、rz/sz文件传输

  • wget https://raw.githubusercontent.com/lawlite19/LinuxSoftware/master/rz-sz/lrzsz-0.12.20.tar.gz
  • tar zxvf lrzsz-0.12.20.tar.gz
  • cd lrzsz-0.12.20
  • ./configure && make && make install
  • cd /usr/local/bin
  • ln -s lrz rz
  • ln -s lsz sz

2、使用xftp等工具传输文件

  • 服务器上需要安装ftp服务

3、wget 下载百度云盘文件

  • wget -c ----referer=百度云盘分享地址 -O 要保存的文件名 "百度云文件真实地址"
  • 文件的真实地址获取
    • 浏览器按F12, 点击下载找到download?的信息
    • dlink为真实地址,注意去除转义字符\

获取百度云真实地址
- 比如: wget -c --referer=https://pan.baidu.com/s/1kV7Xo7H -O lstm1_rnn512_bestACC.zip "https://d.pcs.baidu.com/file/4e4cd12ad77d7ac60d2cfcb8e009bf1c?fid=3174489928-250528-212189063946307&time=1514127189&rt=pr&sign=FDTAERVCY-DCb740ccc5511e5e8fedcff06b081203-LWe3VIBsW3foAEVnTUqSROJQ46s%3D&expires=8h&chkv=1&chkbd=1&chkpc=et&dp-logid=8301954057401711855&dp-callid=0&r=884079691"

Reference

  • Cuda:
    • https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=deblocal
    • http://blog.csdn.net/u012235003/article/details/54575758
    • http://blog.csdn.net/hungryof/article/details/51557666
    • https://github.com/facebookarchive/fbcunn/blob/master/INSTALL.md#install-cuda
  • Wget下载百度云:
    • http://blog.csdn.net/zhongdajiajiao/article/details/51917886

这篇关于阿里云GPU服务器上Torch安装与测试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114636

相关文章

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

mysql中的服务器架构详解

《mysql中的服务器架构详解》:本文主要介绍mysql中的服务器架构,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、mysql服务器架构解释3、总结1、背景简单理解一下mysqphpl的服务器架构。2、mysjsql服务器架构解释mysql的架

Python中Tensorflow无法调用GPU问题的解决方法

《Python中Tensorflow无法调用GPU问题的解决方法》文章详解如何解决TensorFlow在Windows无法识别GPU的问题,需降级至2.10版本,安装匹配CUDA11.2和cuDNN... 当用以下代码查看GPU数量时,gpuspython返回的是一个空列表,说明tensorflow没有找到

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC(GoogleRemoteProcedureCall)是一种高性能、开源的远程过程调用(RPC)框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》:本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase?SeleniumBase

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

MySQL MCP 服务器安装配置最佳实践

《MySQLMCP服务器安装配置最佳实践》本文介绍MySQLMCP服务器的安装配置方法,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录mysql MCP 服务器安装配置指南简介功能特点安装方法数据库配置使用MCP Inspector进行调试开发指

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4