在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性

本文主要是介绍在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提到训练AI大模型,总能让人想起动辄几百上千块GPU、天价训练费用、只有几家大厂才玩得起,普通AI玩家看着铺天盖地的大模型新闻只能默默流泪~

现在,仅有一块GPU的个人PC也可以训练高达180亿参数GPT;普通的笔记本电脑,也能训练十几亿参数的模型,相比现有主流方案,可提升参数容量十余倍

如此显著的提升来自Colossal-AI,一个通用AI大模型高效训练系统。最重要的是,它完全开源,仅需极少量修改,即可让现有深度学习项目在单张消费级显卡上使用大得多的模型进行训练,每个人都可以在家训练AI大模型!尤其是大幅度降低了AI大模型微调和推理等下游任务和应用部署的门槛

Colossal-AI还可将现有项目便捷扩展到大规模计算集群,使用高效并行技术进一步加速。

开源地址:

https://github.com/hpcaitech/ColossalAI

7b5643ad8d54a7783f97182f98fc5ec6.png

巨头角力,争炼AI大模型

8492b52c368cfc270eb5151970c7de57.png

从2018年谷歌提出的3亿参数BERT起,大模型记录在短短几年时间内被不断刷新,OpenAI 1750亿参数的GPT-3,微软和英伟达联手发布的5300亿参数MT-NLG ......

稠密单体模型已达千亿参数,而稀疏混合模型,如谷歌2021年发布的Switch Transformer,更是将参数量推至万亿级别。

然而,从头训练如此之大的模型费用极高,通常需要同时使用数百甚至上千张NVIDIA A100等专业高性能计算GPU,使用专用的InfiniBand高速网络互联的超级计算机集群,单次训练成本可达千万美元。

543e7279c7edbf9f0c6c71a4b697ab5c.png

使用单张消费级显卡训练AI大模型

对于在校学生和个人开发者等普通AI玩家来说,显然无法承担上述如此高昂的费用,最方便获得的计算资源还是个人电脑中的英伟达RTX系列消费级GPU。

为了解放AI生产力,让大模型普惠到更多开发人员,真正实现"多快好省"的使用AI大模型,Colossal-AI仅需几行代码,便可实现提升单卡训练模型容量十几倍的提升

2fbdba8b31b86bc34f1e3fba4ed4357e.png

在各类型硬件上,Colossal-AI的表现均远超原生PyTorch和主流的微软DeepSpeed方案。

对于大模型的代表GPT,使用Colossal-AI在搭载RTX 2060 6GB的普通游戏笔记本上,也足以训练高达15亿参数模型;对于搭载RTX3090 24GB的个人电脑,更是可以直接训练180亿参数的模型;对于Tesla V100等专业计算卡,Colossal-AI也能显示出显著改善。

87e865c6d65e5c4c05c00851746e223b.png

Colossal-AI还成功复现了谷歌的最新研究成果PaLM (Pathways Language Model),在各类硬件上也体现出卓越的性能提升,而微软DeepSpeed尚不支持PaLM模型。

ffec112f01f7316d08947d81047b0cbb.png

af05d326ae59d85cf7da25e89fccdf98.png

关键技术:异构训练再升级

使用单张消费级显卡训练AI大模型的最大困难在于显存容量极其有限,严重限制了可容纳的模型参数量。微软DeepSpeed的提出ZeRO-offload方法,尝试将模型切分,利用更大容量、更低成本的内存。目前已经出现了多个基于DeepSpeed的魔改版本。但如下图左边所示,当 GPU 内存不足以满足其相应的模型数据要求时,即使当时CPU上仍有可用内存,系统也会崩溃。

970778da034c870cd069359a4b05d46e.png

不同于基于DeepSpeed的各种魔改方案,Colossal-AI团队从头搭建了如ZeRO等核心关键技术,并针对DeepSpeed在CPU和GPU内存之间仅使用静态划分模型数据、对不同训练配置使用固定内存布局等问题做了诸多改进,进一步挖掘高效的GPU与CPU内存高效协同方案,毕竟内存条可比大显存的高端显卡便宜太多~

Colossal-AI设计的Gemini,就像双子星一样,高效管理和利用GPU与CPU的异构内存,让张量在训练过程中动态分布在CPU-GPU的存储空间内,从而让模型训练突破GPU的内存墙。

我们利用深度学习网络训练过程的迭代特性,按迭代次数将训练分为warmup和non-warmup两个阶段。在初期warmup阶段,监测内存信息;在non-warmup阶段利用已收集的信息来高效移动张量,以达到最小化CPU-GPU数据移动的目的。

439fb64452295426b4c479df94106357.png

听起来容易,实现起来却并不简单。非模型的内存使用量其实难以获取,因为非模型数据的生存周期并不归用户管理,现有的深度学习框架没有暴露非模型数据的追踪接口给用户。其次,CUDA context等非框架开销也需要统计。

Colossal-AI通过采样方式在warmup阶段获得CPU和GPU内存的使用情况。非模型数据的使用可以通过两个统计时刻之间系统最大内存使用-模型内存使用获得。模型的内存使用情况可以通过查询内存管理器得知,如下图黑色实线所示。

792d5e8ceafce2415cba151b832876fd.png

而所有模型数据张量则交给内存管理器管理,每个张量标记一个状态信息,包括HOLD,COMPUTE,FREE等。并根据动态查询到的内存使用情况,不断动态转换张量状态,调整张量位置,最终实现对GPU显存和CPU内存的高效利用,实现在硬件极其有限的情况下,最大化模型容量和平衡训练速度,对于AI民主化和低成本微调大模型下游任务等意义巨大。

971bfab672a9d093c29178dd5d112c6f.png

更进一步:便捷高效并行扩展

并行分布式技术是进一步加速模型训练的重要手段,想要以最短时间训练当今世界最大最前沿的AI模型,仍离不开高效的分布式并行扩展。针对现有方案并行维度有限、效率不高、通用性差、部署困难、缺乏维护等痛点,Colossal-AI通过高效多维并行和异构并行等技术,让用户仅需极少量修改,即可高效快速部署AI大模型训练。

例如对于GPT-3这样的超大AI模型,相比英伟达方案,Colossal-AI仅需一半的计算资源,即可启动训练;若使用相同计算资源,则能提速11%,可降低GPT-3训练成本超百万美元。

6e50706ef78af942197ea119913820c5.png

对于蛋白质结构预测应用AlphaFold,基于Colossal-AI的加速方案的FastFold,成功超越谷歌和哥伦比亚大学的方案,将AlphaFold训练时间从11天减少到67小时,且总成本更低,在长序列推理中也实现9.3~11.6倍的速度提升。

69edc6e25fcfe2c8ce892be9d904b231.png

Colossal-AI注重开源社区建设,提供中文教程,开放用户社群及论坛,对于用户反馈进行高效交流与迭代更新,不断添加PaLM、AlphaFold等前沿应用。

自然开源以来,Colossal-AI已经多次登顶GitHub热榜Python方向世界第一,与众多已有数万star的明星开源项目一起受到海内外关注!

6bb372eb2154e9a710380d73e65659cc.png

项目团队

潞晨技术团队的核心成员均来自美国加州大学伯克利分校,斯坦福大学,清华大学,北京大学,新加坡国立大学,新加坡南洋理工大学等国内外知名高校;拥有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名厂商工作经历。公司成立即获得创新工场、真格基金等多家顶尖VC机构种子轮投资。

3550bdbb92e4e9f70ab5da5322c1365f.png

潞晨科技创始人尤洋教授:加州大学伯克利分校博士、IPDPS/ICPP最佳论文、ACM/IEEE George Michael HPC Fellowship、福布斯30岁以下精英(亚洲 2021)、IEEE-CS超算杰出新人奖、UC伯克利EECS Lotfi A. Zadeh优秀毕业生奖。

8f8655709fd8e18d45fd59a04f9167fa.png

潞晨CSO Prof. James Demmel:加州大学伯克利分校杰出教授、ACM/IEEE Fellow,美国科学院、工程院、艺术与科学院三院院士

传送门

项目地址:

https://github.com/hpcaitech/ColossalAI

参考链接:

  • https://medium.com/@hpcaitech/train-18-billion-parameter-gpt-models-with-a-single-gpu-on-your-personal-computer-8793d08332dc

这篇关于在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/574931

相关文章

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1

Spring Boot3.0新特性全面解析与应用实战

《SpringBoot3.0新特性全面解析与应用实战》SpringBoot3.0作为Spring生态系统的一个重要里程碑,带来了众多令人兴奋的新特性和改进,本文将深入解析SpringBoot3.0的... 目录核心变化概览Java版本要求提升迁移至Jakarta EE重要新特性详解1. Native Ima

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

《SpringBootspring-boot-maven-plugin参数配置详解(最新推荐)》文章介绍了SpringBootMaven插件的5个核心目标(repackage、run、start... 目录一 spring-boot-maven-plugin 插件的5个Goals二 应用场景1 重新打包应用

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

从入门到精通C++11 <chrono> 库特性

《从入门到精通C++11<chrono>库特性》chrono库是C++11中一个非常强大和实用的库,它为时间处理提供了丰富的功能和类型安全的接口,通过本文的介绍,我们了解了chrono库的基本概念... 目录一、引言1.1 为什么需要<chrono>库1.2<chrono>库的基本概念二、时间段(Durat

如何在Spring Boot项目中集成MQTT协议

《如何在SpringBoot项目中集成MQTT协议》本文介绍在SpringBoot中集成MQTT的步骤,包括安装Broker、添加EclipsePaho依赖、配置连接参数、实现消息发布订阅、测试接口... 目录1. 准备工作2. 引入依赖3. 配置MQTT连接4. 创建MQTT配置类5. 实现消息发布与订阅

springboot项目打jar制作成镜像并指定配置文件位置方式

《springboot项目打jar制作成镜像并指定配置文件位置方式》:本文主要介绍springboot项目打jar制作成镜像并指定配置文件位置方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录一、上传jar到服务器二、编写dockerfile三、新建对应配置文件所存放的数据卷目录四、将配置文

Python中Tensorflow无法调用GPU问题的解决方法

《Python中Tensorflow无法调用GPU问题的解决方法》文章详解如何解决TensorFlow在Windows无法识别GPU的问题,需降级至2.10版本,安装匹配CUDA11.2和cuDNN... 当用以下代码查看GPU数量时,gpuspython返回的是一个空列表,说明tensorflow没有找到