大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级

2023-11-23 13:01

本文主要是介绍大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

11月23日,腾讯披露,腾讯混元大模型背后的自研机器学习框架Angel再次升级,大模型训练效率提升至主流开源框架的2.6倍,千亿级大模型训练可节省50%算力成本。升级后的Angel支持单任务万卡级别超大规模训练,进一步提升腾讯云HCC大模型专属算力集群的性能和效率。

同时,Angel还提供了从模型研发到应用落地的一站式平台,支持用户通过API接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过300个腾讯产品及场景均已接入腾讯混元内测。

目前,相关能力已通过腾讯云对外开放。基于升级后的Angel机器学习框架,腾讯云TI平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

自研机器学习框架升级,大模型训练推理效率再提升

随着大模型时代到来,模型参数呈指数级增长,达到万亿级别。大模型逐渐从支持单一模态和任务发展为支持多种模态下的多种任务。在这种趋势下,大模型训练所需算力巨大,远超单个芯片的处理速度,而多卡分布式训练通信损耗巨大。如何提高硬件资源利用率,成为影响国产大模型技术发展和实用性的重要前提。

面向大模型训练,腾讯自研了机器学习训练框架AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化。AngelPTM采用最新的FP8混合精度训练技术,结合深度优化后的4D并行和ZeROCache机制优化存储,可兼容适配多款国产化硬件,能够以更少的资源和更快的速度训练更大的模型。

2023年4月,腾讯云面向大模型而生的新一代HCC高性能计算集群正式发布,性能较前代提升3倍。除了硬件的升级,针对大模型训练场景,HCC对网络协议、通信策略、AI框架、模型编译等进行系统级优化,大幅节约训练调优和算力成本。此前AngelPTM就已经通过HCC对外提供服务,本次Angel机器学习框架升级,也将进一步提升HCC大模型专属算力集群的性能,助力企业加速大模型落地。

模型参数的增大不仅给训练带来了挑战,还导致了推理成本的不断上升。为解决这一问题,腾讯自研的大模型推理框架AngelHCF通过扩展并行能力、采用多种Attention优化策略等方式对性能进行了提升。同时,框架还适配了多种压缩算法,以提高吞吐能力,从而实现更快的推理性能和更低的成本,支持大型模型推理服务。

相较于业界主流框架,AngelHCF的推理速度提高了1.3倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的10秒缩短至3至4秒。此外,AngelHCF还支持多种灵活的大模型压缩和量化策略,支持自动压缩。

一站式应用构建,让大模型“开箱即用”

作为实用级大模型,腾讯混元大模型从研发之初就面向应用场景而生,在实践中解决大模型落地难点。腾讯产品及应用种类多、流量大,让模型真正“用起来”挑战很大。基于Angel,腾讯构建了大模型接入和应用开发的一站式平台,包含数据处理、精调、模型评估、一键部署以及提示词调优等服务,让大模型的“开箱即用”成为可能。

模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,充分适配各类应用场景的需求,只需要经过简单微调就能达到满足业务需求的效果,同时降低模型训练和推理服务的资源成本,在问答、内容分类等常见应用场景中具有更高的性价比。

应用开发层面,腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

2023年9月,腾讯自研的实用级大模型腾讯混元正式亮相并通过腾讯云开放。腾讯混元拥有超千亿参数规模,预训练语料超 2 万亿 tokens,聚合了腾讯在预训练算法、机器学习平台和底层算力资源多个层面的自研技术积累,并在应用中持续迭代,不断优化大模型能力。目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户,通过腾讯云接入腾讯混元大模型。

这篇关于大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/418139

相关文章

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

Ubuntu如何升级Python版本

《Ubuntu如何升级Python版本》Ubuntu22.04Docker中,安装Python3.11后,使用update-alternatives设置为默认版本,最后用python3-V验证... 目China编程录问题描述前提环境解决方法总结问题描述Ubuntu22.04系统自带python3.10,想升级

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.