linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘

2024-03-06 11:10

本文主要是介绍linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

拼 命 加 载 中 ...

这两天时值国际超级计算大会,Intel推出了MIC多核架构的商品化品牌Xeon Phi,NVIDIA作为GPU计算阵营的代表也没闲着,也向公众展示了GPU计算在HPC领域的成就,并首次公开了Tesla K10的性能。

Top500的性能排名是基于Linpack Fortran矩阵数学测试而来的,这是一种双精度运算,不过实际应用中基于单精度的运算依然占相当大比例,这正是Tesla K10擅长的地方。

GPU计算卡在HPC中通常扮演协处理器的角色,它可以极大地提高HPC的峰值性能,四年前IBM“走鹃”计算机使用的就是AMD六核Optron处理器加IBM Cell协处理器的方式首次达到Petaflops千万亿级计算性能的。(国内的天河-1A也是处理器+协处理器的方式冲顶的,使用的协处理器就是NVIDIA Fermi架构的M2090计算卡)

c7fbdd2a1dc7b03791dde5e1d3e66d4a.png

NVIDIA在2007年正式推出Tesla计算卡,不过到2008年Tesla卡才具备基本的双精度计算能力。2010年发布的Tesla 20系列基于Fermi核心,支持GDDR5显存内ECC纠错,双精度性能也大幅提升,相比传统CPU方案,基于Tesla的HPC不仅更便宜,而且功耗更低,在散热和能耗上可以节省大笔投资。

2012年上半年的Top500超级计算机中有58套系统使用了协处理器设计,其中53套基于NVIDIA Tesla计算卡,2套使用AMD显卡,一套使用Intel刚刚定名的Xeon Phi处理器(ps:这才56套,还有2套是什么协处理器没提到)

9aabb5a6715fe2c5c0b0fd37779bc575.png

Top500中使用GPU协助计算的平台越来越多

排名前10的系统中有三套使用了Tesla计算卡,这一数值与一年前相比没有变化,11-50排名中有4套,翻了一倍,51-100的HPC中增加200%,而101-500的系统中数量增加了680%,用NVIDIA Tesla事业部高级产品经理Sumit Gupta的话说,“GPU使得HPC更加大众化,排名后400的系列中使用Tesla计算卡的系统达到前一年的8倍”。

他说实际上NVIDIA更关注的是不在Top500名单上的其他4000套HPC,NVIDIA的Tesla正在驱动HPC走向大众化。借助GPU的能力,一些规模较小的大学也构建Top500级别的小型计算中心。

为此,NVIDIA已经不再像上一代Fermi架构那样追求同步提升Tesla显卡的单精度和双精度性能,其中使用两颗GK104核心的Tesla K10主要面向单精度运算需求,浮点性能可达4.58TFLOPS,搭配8GB GDDR5显存。

基于GK110架构的Tesla K20主要面向双精度运算,双精度性能可达2TFlops,两倍于Intel刚刚宣布的Xeon Phi,二者都将在年底发布。

9c8dcd1f55e69f89f7aaafa27fa69795.png

K10上的每颗GPU都有160GB/s的带宽,整块显卡则有320GB/s的吞吐带宽,与50GB/s带宽的Sandy Bridge架构的Xeon E5-2600相比,K10达到后者的6.4倍之多,即便与前代177.6GB/s带宽的M2090相比也有近一倍提升。

说了这么多,来看看Tesla K10真正的计算性能吧,对比的是上一代的M2090,当然测试基本都是基于单精度运算的。

c9196d41d8badabac00b153ee762c0a1.png

K10展示出了强大的性能,整体大约是M2090的2-3倍。

其中,Amber是分子动力学模型软件,2009年时它在96颗X86处理器组成的服务器上花了一天时间才完成了23558个原子大约46ns(纳秒)的模拟运算,而使用8颗M2050计算卡一天内就可以完成52ns的运算,如果使用M2090则可以完成69ns的运算量。

到了今年,使用两颗K10计算卡就可以完成66ns的运算量,如果也使用8块K10运算的话那就可以完成四倍的运算量。

除了地震预测及分子动力学计算之外,K10同样也适用于卫星图像处理、视频增强、信号处理、计算机视觉、视频转码以及数字处理等领域,前提是对双精度运算要求不高。

这篇关于linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_36303305/article/details/116963639
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/779874

相关文章

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Linux实现线程同步的多种方式汇总

《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp?2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主

conda安装GPU版pytorch默认却是cpu版本

《conda安装GPU版pytorch默认却是cpu版本》本文主要介绍了遇到Conda安装PyTorchGPU版本却默认安装CPU的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录一、问题描述二、网上解决方案罗列【此节为反面方案罗列!!!】三、发现的根本原因[独家]3.1 p

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元

JVisualVM之Java性能监控与调优利器详解

《JVisualVM之Java性能监控与调优利器详解》本文将详细介绍JVisualVM的使用方法,并结合实际案例展示如何利用它进行性能调优,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1. JVisualVM简介2. JVisualVM的安装与启动2.1 启动JVisualVM2