天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台

本文主要是介绍天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。

近年来,国家对于高新技术自主研发的重视已经上升到了国家战略层面,高校作为国家未来人才储备,科研成果最多的单位之一,国家对其投入也在逐年加大。教学设施的优化与科研配套设备对于高校教研工作者来说尤为重要。在众多科研设备中,高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。
在这里插入图片描述

齐鲁工业大学作为山东省重点建设的应用研究型大学、山东省综合性自然科学研究机构以及山东省属高校高水平大学,紧随国家科技兴国的发展战略,提前布局高性能计算基础设施,为教学、科研、行业应用等多种应用场景提供完善的融合服务平台。尤其是在人工智能方向,校方迫切需要搭建自己的高性能数据分析集群,帮助在校老师及学生完成在人工智能领域的开发、模型训练教学以及科研任务。

人工智能领域的探索需要强大的算力支撑,高性能数据分析集群是不可或缺的基础设施。它不仅需要良好的硬件支撑和友好的应用软件,更需要能把性能发挥到最大化的中台系统——“集群资源管理和调度软件”。所谓集群资源管理和调度软件就是协调底层硬件资源与应用层软件的中枢系统,好比一个繁忙十字路口的红绿灯,它可缓解拥堵的道路交通,并最大化提升道路运输能力,这就是高性能计算中资源管理和调度软件的作用。没有它的管理,会造成用户的任务大量冲突, IT资源大量浪费,导致科研项目进度大大降低。常规的开源软件如基于容器技术的Kubernetes使用和维护门槛较高,需要使用者熟悉容器的制作和使用,运行和维护也缺乏代码开发者的直接支持。

天云软件与合作伙伴一起积极听取校方的需求与意见,从校方的使用场景出发,根据多年的服务经验和高性能计算、高性能数据分析管理调度软件的技术积累,基于天云自主的高性能计算管理和调度系统SkyForm AIP设计出了一套适合于高校的高性能数据分析平台。重点提升对GPU资源的调度、使用和监控,实现完全云模式的操作流程,让老师和学生们可以像在本地一样远程可视化使用应用。调度软件不仅有效为模型训练任务分配GPU,还可监控GPU实际的使用情况,对已分配GPU后不使用以及随意使用未经调度分配的GPU的任务,将会根据规则自动处理,这样极大的提高了GPU和集群其他资源的利用率,让老师和同学们把精力集中在人工智能的科研和教学上,而不需要花费大量精力去学习和处理容器、操作系统命令等复杂的IT问题。
在这里插入图片描述

当然项目也并非进行的一帆风顺。在最初的高性能数据分析集群部署完成后,同学们争先恐后的登录平台,想在平台上尽快建立自己的研究项目,但这也引发了一个问题——稀缺的GPU资源长时间被某些用户长时间占用,导致其他人无法使用。天云软件的技术团队迅速作出反应,对软件产品进行了改进。首先对用户任务类型分类,通过限制登录时间和资源分配,有效释放平台紧俏资源;其次为防止资源分配冲突,对系统监控功能进行了重点升级,使得调度系统在监控下对资源分配得当,效率倍增;最后为了进一步提高整体系统安全性,天云软件技术团队对图形应用内网端口动态端口做了统一映射到一个固定端口,用户通过网关访问系统,直接打开浏览器输入登录,安全便捷。齐鲁工业大学计算机科学与技术学院姜文峰老师说:“平台最开始确实有些使用问题,经过一段时间的磨合后,天云软件逐步完善切实可行的升级方案,并为我们定制化开发了多项配套实用功能,他们不仅能够快速响应,还专门建立了技术运维社群,7*24全天候在线处理突发问题,这样的服务令我们非常满意,目前碰到的问题都已妥善的解决,这个平台对于我们学校的科研教学工作起到了很大的帮助。”

天云软件与合作伙伴通力合作克服了项目实施中的诸多难点,为齐鲁工业大学搭建了一个模块化、便捷、可靠且可扩展的高新能数据分析平台。经过近两年的使用和与运维团队的紧密配合,系统运行稳定,资源效率实使用大幅提高,为校方教学、科研项目提供了良好的技术支撑,得到了老师同学们的一致好评。

这篇关于天云软件SkyForm AIP携手齐鲁工业大学 构建高性能数据分析平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/328829

相关文章

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

一文教你Java如何快速构建项目骨架

《一文教你Java如何快速构建项目骨架》在Java项目开发过程中,构建项目骨架是一项繁琐但又基础重要的工作,Java领域有许多代码生成工具可以帮助我们快速完成这一任务,下面就跟随小编一起来了解下... 目录一、代码生成工具概述常用 Java 代码生成工具简介代码生成工具的优势二、使用 MyBATis Gen

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx