天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台

本文主要是介绍天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。

近年来,国家对于高新技术自主研发的重视已经上升到了国家战略层面,高校作为国家未来人才储备,科研成果最多的单位之一,国家对其投入也在逐年加大。教学设施的优化与科研配套设备对于高校教研工作者来说尤为重要。在众多科研设备中,高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。
在这里插入图片描述

齐鲁工业大学作为山东省重点建设的应用研究型大学、山东省综合性自然科学研究机构以及山东省属高校高水平大学,紧随国家科技兴国的发展战略,提前布局高性能计算基础设施,为教学、科研、行业应用等多种应用场景提供完善的融合服务平台。尤其是在人工智能方向,校方迫切需要搭建自己的高性能数据分析集群,帮助在校老师及学生完成在人工智能领域的开发、模型训练教学以及科研任务。

人工智能领域的探索需要强大的算力支撑,高性能数据分析集群是不可或缺的基础设施。它不仅需要良好的硬件支撑和友好的应用软件,更需要能把性能发挥到最大化的中台系统——“集群资源管理和调度软件”。所谓集群资源管理和调度软件就是协调底层硬件资源与应用层软件的中枢系统,好比一个繁忙十字路口的红绿灯,它可缓解拥堵的道路交通,并最大化提升道路运输能力,这就是高性能计算中资源管理和调度软件的作用。没有它的管理,会造成用户的任务大量冲突, IT资源大量浪费,导致科研项目进度大大降低。常规的开源软件如基于容器技术的Kubernetes使用和维护门槛较高,需要使用者熟悉容器的制作和使用,运行和维护也缺乏代码开发者的直接支持。

天云软件与合作伙伴一起积极听取校方的需求与意见,从校方的使用场景出发,根据多年的服务经验和高性能计算、高性能数据分析管理调度软件的技术积累,基于天云自主的高性能计算管理和调度系统SkyForm AIP设计出了一套适合于高校的高性能数据分析平台。重点提升对GPU资源的调度、使用和监控,实现完全云模式的操作流程,让老师和学生们可以像在本地一样远程可视化使用应用。调度软件不仅有效为模型训练任务分配GPU,还可监控GPU实际的使用情况,对已分配GPU后不使用以及随意使用未经调度分配的GPU的任务,将会根据规则自动处理,这样极大的提高了GPU和集群其他资源的利用率,让老师和同学们把精力集中在人工智能的科研和教学上,而不需要花费大量精力去学习和处理容器、操作系统命令等复杂的IT问题。
在这里插入图片描述

当然项目也并非进行的一帆风顺。在最初的高性能数据分析集群部署完成后,同学们争先恐后的登录平台,想在平台上尽快建立自己的研究项目,但这也引发了一个问题——稀缺的GPU资源长时间被某些用户长时间占用,导致其他人无法使用。天云软件的技术团队迅速作出反应,对软件产品进行了改进。首先对用户任务类型分类,通过限制登录时间和资源分配,有效释放平台紧俏资源;其次为防止资源分配冲突,对系统监控功能进行了重点升级,使得调度系统在监控下对资源分配得当,效率倍增;最后为了进一步提高整体系统安全性,天云软件技术团队对图形应用内网端口动态端口做了统一映射到一个固定端口,用户通过网关访问系统,直接打开浏览器输入登录,安全便捷。齐鲁工业大学计算机科学与技术学院姜文峰老师说:“平台最开始确实有些使用问题,经过一段时间的磨合后,天云软件逐步完善切实可行的升级方案,并为我们定制化开发了多项配套实用功能,他们不仅能够快速响应,还专门建立了技术运维社群,7*24全天候在线处理突发问题,这样的服务令我们非常满意,目前碰到的问题都已妥善的解决,这个平台对于我们学校的科研教学工作起到了很大的帮助。”

天云软件与合作伙伴通力合作克服了项目实施中的诸多难点,为齐鲁工业大学搭建了一个模块化、便捷、可靠且可扩展的高新能数据分析平台。经过近两年的使用和与运维团队的紧密配合,系统运行稳定,资源效率实使用大幅提高,为校方教学、科研项目提供了良好的技术支撑,得到了老师同学们的一致好评。

这篇关于天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/328829

相关文章

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Python利用PySpark和Kafka实现流处理引擎构建指南

《Python利用PySpark和Kafka实现流处理引擎构建指南》本文将深入解剖基于Python的实时处理黄金组合:Kafka(分布式消息队列)与PySpark(分布式计算引擎)的化学反应,并构建一... 目录引言:数据洪流时代的生存法则第一章 Kafka:数据世界的中央神经系统消息引擎核心设计哲学高吞吐

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

Linux之platform平台设备驱动详解

《Linux之platform平台设备驱动详解》Linux设备驱动模型中,Platform总线作为虚拟总线统一管理无物理总线依赖的嵌入式设备,通过platform_driver和platform_de... 目录platform驱动注册platform设备注册设备树Platform驱动和设备的关系总结在 l

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核