中国移动发布面向超万卡集群的新型智算技术白皮书

数码

TIME

2024-04-29 15:25

通信世界全媒体

摘要

自ChatGPT发布以来，科技界掀起了一场大模型的竞争热潮。数据成为新生产要素，算力成为新基础能源，大模型则成为新生产工具，各行各业从“+AI”向“AI+”的转变已势不可挡。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡集群成为这一轮大模型基建军备竞赛的标配。

万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代，并及时对市场趋势作出应对。然而，如何在万卡集群中实现高效的训练，并长期保持训练过程的稳定性，是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。

对此，中国移动于近日发布面向超万卡集群的新型智算技术白皮书，白皮书提出超万卡集群的核心设计原则，并在计算、存储、网络、平台及机房配套等多个领域提出关键问题和解决方案。

一、背景与挑战

自ChatGPT面世以来，大模型步入了迅猛发展期，AI技术的发展带动产业大规模升级的同时，也带来了对巨量算力和能源的需求。大模型对底层算力、空间、水电能源产生极大消耗，对新一代智算设施的设计要求也日益严苛。新型智算中心相关技术将继续被推向新的高度。无论是通信运营商、头部互联网企业、大型AI研发企业还是AI初创企业，都在通过自建或使用万卡集群加速其在人工智能领域的技术突破和产业创新。随着万卡集群建设的不断深入，我们预见这一趋势将为整个智算产业的发展带来深远影响。当前，万卡集群的建设仍处于起步阶段，主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商，其产品在大模型训练上有较大优势。得益于政策加持和应用驱动，国产AI芯片在这两年取得长足进步，但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的万卡集群仍在极致算力使用效率、海量数据处理、超大规模互联、高能耗高密度机房设计等方面面临诸多挑战。

二、设计原则和总体架构

在大算力结合大数据生成大模型的发展路径下，万卡集群的搭建不是简简单单的算力堆叠，要让数万张GPU卡像一台“超级计算机”一样高效运转。超万卡集群的总体设计应遵循坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展五大设计原则。

万卡集群的总体架构由四层一域构成（如图1），四层分别是机房配套、基础设施、智算平台和应用使能，一域是智算运营和运维域。

图1 面向超万卡集群的新型智算总体架构设计

三、关键技术

集群高能效计算技术：随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进，万卡集群亟需全面提升底层计算能力。具体而言，包括增强单芯片能力、提升超节点计算能力、基于DPU（Data Processing Unit）实现多计算能力融合以及追求极致算力能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务，满足迅速增长的业务需求。

高性能融合存储技术：为了实现存储空间高效利用、数据高效流动，并支持智算集群大规模扩展，万卡集群应采用多协议融合和自动分级存储技术，提升智算数据处理效率，助力万卡集群支撑千亿乃至万亿大模型训练。

大规模机间高可靠网络技术：万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的TCP方式部署，参数面网络用于计算节点之间参数交换，要求具备高带宽无损能力。数据面网络用于计算节点访问存储节点，也有高带宽无损网络的诉求。万卡集群对参数面网络要求最高，主要体现在四个方面：大规模，零丢包，高吞吐，高可靠。

高容错高效能平台技术：智算平台的性能通常不能随着算力线性增长，而是会出现耗损，因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化，还需要借助高效的算力调度平台，根据算力集群的硬件特点和计算负载特性实现最优化的算力调度，来保障集群可靠性和计算效率。针对以上问题，业界多以断点续训、并行计算优化、智能运维等作为切入点，构建高容错高效能智算平台。

新型智算中心机房设计：面向高密度高能耗智能算力发展，对于部署超万卡集群的新型智算中心来说，需要在确保智能计算设备安全、稳定、可靠地运行的前提下，具备高效制冷、弹性扩展、敏捷部署、绿色低碳等特征，并实现智能化运维管理。

四、未来展望

随着数据规模的持续扩大、集群能力的不断增强以及大模型应用的日益丰富，对新型智算底座的升级提出了更高的要求。面对未来，我们呼吁在超节点、跨集群训练、软件框架等领域实现技术突破，以强化智算基础设施能力。与此同时持续探索存算一体、光子芯片等先进技术领域与智算中心的结合，为下一次信息变革奠定基础。

点击链接即可下载白皮书

THE END

免责声明：本文系转载，版权归原作者所有；刊载之目的为传播更多信息，如内容不适请及时通知我们。

相关热点

特斯拉通过国家汽车数据安全4项全部要求

　　4月28日，特斯拉CEO埃隆·马斯克乘坐自己的私人飞机湾流G550抵达北京首都国际机场，开启了这一次的访华旅程。　　值得注意的是，这次中国行此前并未公开，央视称是应中国...

汽车

全球首个通用智能人“通通”亮相

　　在近日的2024中关村论坛年会上，由北京通用人工智能研究院研发的全球首个通用智能人“通通”正式亮相。　　院长朱松纯表示，“通通”的诞生，是我国在通用人工智能领域...

智能AI

最新文章

拆解显示：华为 Pura 70 手机零部件国产化率超 90%

中国移动发布面向超万卡集群的新型智算技术白皮书

“AI算力共筑政务新未来” ——2024中国移动算力网络大会ToG 分论坛成功举办

5G-A融百业再提速，中国移动再领跑 ——2024中国移动算力网络大会5G-A分论坛圆满召开

中国移动高同庆：发挥“扁担作用”，挑起算网供需

“万兆之城”初露端倪：北京移动完成万兆宽带试验网搭建

直击2024中国移动算力网络大会展区：算网“黑科技”精彩亮相！

中兴通讯全栈全场景智算基础设施解决方案亮相中国移动算力网络大会

相关推荐

东京奥运会中国第13金由游泳健将张雨霏斩获，一天斩获两枚金牌

两名航天员成功出舱航天员刘伯明成功开启天和核心舱节点舱出舱舱门

微信显示“正在输入”，其实不是在回复消息，背后原因挺“伤人”

中国移动发布面向超万卡集群的新型智算技术白皮书

相关热点

最新文章

相关推荐

东京奥运会中国第13金由游泳健将张雨霏斩获，一天斩获两枚金牌

两名航天员成功出舱 航天员刘伯明成功开启天和核心舱节点舱出舱舱门

微信显示“正在输入”，其实不是在回复消息，背后原因挺“伤人”

关注我们

两名航天员成功出舱航天员刘伯明成功开启天和核心舱节点舱出舱舱门