腾讯云AI超级底座新升级:训练效率提升幅度达到3倍

2023-11-23 14:30

本文主要是介绍腾讯云AI超级底座新升级:训练效率提升幅度达到3倍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型推动AI进入新纪元,对计算、存储、网络、数据检索及调度容错等方面提出了更高要求。在9月7日举行的2023腾讯全球数字生态大会“AI超级底座专场”上,腾讯云介绍异构计算全新产品矩阵“AI超级底座”及其新能力。

腾讯云副总裁王亚晨在开场致辞中表示,AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“车载导航和道路控制系统”,共同让“HCC GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。

图片

腾讯云全新异构计算产品矩阵“AI超级底座”亮相

随着AI应用走向全领域,模型参数发展到千亿、万亿级规模,对云计算的基础设施提出了全新的挑战。腾讯云异构计算产品总监宋丹丹表示,AI 超级底座可以从底层算力基础设施到上层应用对接提供整套完整服务,方便模型生产厂商和AI开发者快速开发、验证。

腾讯云AI超级底座具有海量算力、极致性能、灵活取用等优势,结合了腾讯云的海量多元算力、高性能网络和存储集群,并以云原生产品作为入口供开发者灵活调用。在软硬结合层,腾讯云还可以通过GPU虚拟化、容器等,以及高性能应用服务HAI给开发者提供简易的开发体验,并让底层的高性能算力无损直达开发者,真正实现“高性能易上手”。

图片

基础设施再进化,取之AI,赋能于AI

作为AIGC时代的重要核心,大模型需要庞大的算力来支撑。腾讯云高性能计算集群产品 HCC采用腾讯云星星海自研服务器,提供高性能、高带宽和低延迟的集群算力。目前,HCC已全面升级至2.0,性能、效率和稳定性实现全面提升,相比上代训练效率提升幅度达到3倍,将几十天的训练周期缩短至一周内。

此外,腾讯云还推出了性价比更高的冷存储产品、COS加速器,以及数据湖多级加速体系,可面向AIGC等多种业务场景提供多级缓存加速方案,进一步提升训练效率并降低资源成本。腾讯云存储产品总监崔剑指出,腾讯云通过提供近存储侧的一站式数据处理智能平台,为以AIGC为代表的业务提供内容处理、内容审核等服务,帮助用户挖掘数据价值,从而实现了“取之AI,助力AI”。

图片

腾讯云公网产品负责人俞圆圆指出,对于参数达到千亿、万亿级别的 AI 大模型来说,大带宽、低延时、广覆盖、少抖动的网络是实现高效训练的关键因素之一。腾讯云星脉高性能计算网络具备业界最高的3.2T 通信带宽,可为AI大模型的训练提供高速公路级别的网络通道。

图片

软硬件结合,提升极致性能

底层基础设施以外, AI大模型的落地也需要上层软件的支持。腾讯云异构计算AI研发专家工程师叶帆表示,随着集群规模的增加,无论训练还是推理对硬件性能的利用均呈现指数难度上升,需要精细的软硬件协同来提升性能。腾讯云的Taco-LLM开箱即用性能方案基于Continuous Batching、预测解码、模型量化等技术,提高吞吐的同时,也降低了客户端延迟,并全面兼容hugging face主流大语言模型,可保障复杂多变的公有云应用场景。

图片

针对GPU算力资源浪费的问题,腾讯云TencentOS高级产品架构师杜震表示,qGPU容器产品可以支持多个容器共享 GPU 卡,具备了各容器间算力、显存的精细隔离和灵活配置,将GPU的利用率提升至极致,最终帮助客户大幅节约GPU资源成本。同时,腾讯云还基于 RUE 内核全场景混部,统一调度分配 CPU、IO、网络、内存等资源,提升资源利用率,进一步降低运营成本。

图片

向量数据库加速企业AI化进程

在大模型时代,通过向量数据库将数据高效接入AI大模型,并深度挖掘数据价值,成为最重要的事。

腾讯云数据库产品副总经理罗云指出,腾讯云向量数据库同时具备的性能和规模优势,支持高达10亿级的向量检索规模,延迟则控制在毫秒级,比传统单机插件式数据库检索规模提升了10倍。同时,腾讯云向量数据库还具备百万级每秒查询(QPS)的峰值能力,经腾讯内部海量场景实践,数据接入 AI 的效率比传统方案提升10倍,运行稳定性高达99.99%。

图片

从底层到上层,腾讯云AI超级底座通过大模型高性能计算集群、计算网络以及向量数据库等大模型生态工具,助力AI大模型应用落地。

这篇关于腾讯云AI超级底座新升级:训练效率提升幅度达到3倍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/418573

相关文章

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

Ubuntu如何升级Python版本

《Ubuntu如何升级Python版本》Ubuntu22.04Docker中,安装Python3.11后,使用update-alternatives设置为默认版本,最后用python3-V验证... 目China编程录问题描述前提环境解决方法总结问题描述Ubuntu22.04系统自带python3.10,想升级

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

Linux升级或者切换python版本实现方式

《Linux升级或者切换python版本实现方式》本文介绍在Ubuntu/Debian系统升级Python至3.11或更高版本的方法,通过查看版本列表并选择新版本进行全局修改,需注意自动与手动模式的选... 目录升级系统python版本 (适用于全局修改)对于Ubuntu/Debian系统安装后,验证Pyt

MySQL 升级到8.4版本的完整流程及操作方法

《MySQL升级到8.4版本的完整流程及操作方法》本文详细说明了MySQL升级至8.4的完整流程,涵盖升级前准备(备份、兼容性检查)、支持路径(原地、逻辑导出、复制)、关键变更(空间索引、保留关键字... 目录一、升级前准备 (3.1 Before You Begin)二、升级路径 (3.2 Upgrade

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语