面向大模型的智算集群技术创新与生态构建正当时

数码
TIME
2024-07-31 15:25
通信世界全媒体
分享

大模型的兴起催生出巨大算力需求,掀起了新一轮智算集群建设高潮。全球主要国家的科技巨头、电信运营商、云服务商、基础设施建设方和算力供给商等相关产业主体加紧布局,试图抢抓大模型发展机遇、满足下游创新需求,以谋求战略主动,面向大模型的智算集群技术创新与产业生态构建迎来关键窗口期。 

智算集群成为大模型“军备竞赛”的焦点

大模型创新迭代需求是智算集群建设升级的关键驱动,正在加速向人工智能与高性能计算融合。近期,业界遵循Scaling laws(尺度定律)持续推动大模型创新迭代,一批大规模智算集群系统也加紧建设。大模型是各类创新主体进行更大规模模型实验的基础,将推动智能体、多模态等领域取得一系列突破成果。大规模智算集群建设成为国内外头部厂商训练部署大模型的共识(见表1),万卡集群成为支撑大模型“军备竞赛”的算力起点,人工智能与高性能计算系统加速走向融合,通信互联、集群规模等达到超算系统的水平,同时结合大模型计算特征和稳定性需求持续完善创新。

计算能力决定大模型性能“天花板”,也决定了分布式训练的效能和稳定性,是智算集群建设的重点。Scaling laws揭示了通用人工智能对算力需求日益增长的需求规律,同时也表明有限的算力供应可能成为制约大模型发展的瓶颈。综合考虑成本、效率等因素,智算集群规模与模型间普遍存在“百卡百亿、千卡千亿、万卡万亿”的对应关系(见表2)。

在集群规模快速扩展的同时,建设和使用主体对算力利用、互联通信、运维保障等方面提出更高要求,旨在提升大规模分布式训练的效能和稳定性,呈现“线性扩展、高效利用、高速互联、稳定可靠”四大需求特征。

一是追求近似线性的超大规模集群扩展能力。加速比是衡量并行计算效率提升的重要指标。“线性加速比”又称为“理想加速比”,是指处理器数量增加N倍,计算效率也相应提升N倍,极限比值为1。在实际模型训练过程中,会有参数同步等网络通信开销,无法达到极限比值,因此智算集群一直追求近似线性的超大规模集群扩展能力。产业各方针对大模型训练场景提供了专门的通信拓扑优化,试图最小化网络通信开销带来的性能损失,谷歌TPU v3千卡集群(1024张)优化后可达到95%以上的加速比,国产芯片厂商也可将千卡集群优化到90%以上,通过多种方式抑制节点协同损耗,不断提升集群使用效率。

二是强调对算力资源的充分挖掘利用。受互联带宽速率、计算任务类型(访存密集型和计算密集型)等限制,现有算法模型处理过程无法充分发挥硬件计算潜能,业界寻求更加高效的计算方式以提升算力资源利用率,如存储环节通过精细化缓存、查询请求消重等降低存储读写压力;通信环节基于时分复用的任务切换,提升通信效率;计算环节通过资源池化,实现资源的灵活切分、组合、分配和回收等。尽管业界进行了诸多定制优化,但典型MFU(模型算力利用率)普遍仅在40%左右,如GPT-4的MFU为32%~36%、谷歌PaLM的MFU为46%,仍有极大提升空间。各大典型模型的MFU见表3。

三是提升节点内外互联通信速率。在大规模预训练模型中,特别是MoE模型引入All to All通信,其单次通信数据量小,通信次数频繁,对高带宽、低时延的需求更为迫切。新一代智算集群需要高性能无阻塞的网络连接以及更高并行度的训练策略和通信范式,以提升节点内和节点间互联效率。从节点内看,当智算中心向千卡或万卡级别的全互联方向演进时,传统的直连拓扑结构不再适用,转向更高效、更先进的互联拓扑设计。更高效的拓扑设计分为私有化和开放化方案两类,私有化方案以NVIDIA NVLink为代表,开放化方案以OAM和UBB为主,均可实现“百卡级”无缝互联。节点间方案以InfiniBand(无限带宽技术)和RoCEv2为主,InfiniBand网卡以NVIDIA 为代表,互联速率和扩展规模领先,200Gbit/s HDR已实现规模化部署,400Gbit/s NDR开始商业推广;RoCEv2的网卡端口速率一般为50Gbit/s起,当前可达400Gbit/s,交换机端口速率普遍从100Gbit/s至400Gbit/s不等,转发能力持续提升。

四是长时间稳定训练和故障快速修复能力。领先算力集群规模普遍达到千卡至万卡级别,相比单节点训练,集群故障率呈指数级提升,维护难度急剧升高,如单卡故障率为0.01%,2000卡集群的故障率将飙升至18%,极大影响模型训练效率,增加研发成本,因此大模型训练更加需要长时间高可靠、高稳定的算力集群。目前业界通过缩减检查点开销、提升故障预警识别能力、增加任务容错机制等方式,实现分钟级故障定位并自动恢复,不断提升智算集群稳定运行能力,如腾讯自研端到端的全栈网络运营系统,将集群整体故障的排查时间由天级降低至分钟级;华为盘古大模型在2048卡训练30天不中断,断点恢复时长控制在10分钟以内。

软硬件深度协同是智算集群创新的重点

智算集群的发展重点已从单点技术突破向产业协同生态建设转移。在专用算法时代,产业发展聚焦于单点技术突破,框架、芯片、算法、网络等任一环节的极致优化可大幅提升AI效果;在大模型时代,大模型创新对先进基础软硬件系统依赖性更强,模型的创新与基础软硬件体系正加速耦合,一味追求算力规模扩张无法满足大模型创新需求,应更加注重应用、算法、关键软件栈、底层硬件全方位协同发展,实现系统收益最大化。

智算集群重点围绕算法极致优化的垂直适配以及支撑模型规模化的水平扩展两大方向,在软件栈能力、分布式训练、异构算力合池等方面进行协同创新。

垂直方向重点关注算法模型、框架、芯片间的高效兼容适配,强调通过完善软件栈功能、丰富算子库等方式释放硬件潜力,各厂商不断完善软件栈工具链,包括算子开发工具、编译器、编程语言、驱动程序等。业界正在探索统一软件栈接口方式,如通过第三方工具屏蔽底层软硬件差异,实现不同软硬件间互联互通。

水平方向致力于构建适用于大规模分布式训练的集群系统,一是软硬件层面加强分布式训练策略支持力度,如分布式框架具备多维并行策略和集群调度能力,从而实现对大模型训练的原生支持,分布式存储系统采用盘控协同、GPU直访存储、全局一致性缓存等技术为大模型数据训练、归集提供支持。二是推动异构算力合池成为缓解计算资源瓶颈的创新重点,如设计新的网络架构实现跨芯片互联互通、推动异构芯片通信标准化等举措,有助于不同芯片厂商间形成发展合力。

智算集群生态构建建议

当前,我国算力规模持续扩大,互联网、大数据、AI等领域中的新业态、新模式正加速涌现,为更好推动我国智算集群稳定高效发展和生态构建,助力千行百业数字化转型,笔者提出以下三方面建议。

一是“全国一盘棋”统筹规划各地智算集群建设。构建面向人工智能的基础软硬件统一测评体系,在建设过程中测试验证各类协同技术发展情况,在各类软硬件产品选型、兼容适配、应用部署等方面形成统一标准,明确基于自主软硬件生态的技术路线和技术栈,确保满足大模型高效训推等人工智能创新研发要求,实现以智算中心建设为契机推动自主软硬件生态发展的目标。

二是以关键行业应用需求带动智算集群创新发展。考虑在工业、能源、交通、金融等行业应用领域搭建大模型行业解决方案测试床,小范围测试验证环境,低成本验证大模型应用效果,降低大模型应用门槛,为行业用户提供技术产品选型参考,加速推动基于智算集群的国产大模型成果产业化落地。

三是加快推动国产软硬件兼容适配。结合我国框架、芯片多样化发展的基本情况,加强不同尺寸、不同应用类型的模型与框架平台、硬件系统的适配;加快算子库及软件栈能力建设,推动算子开发、互联通信、软件栈接口等系列标准研制,充分释放异构芯片计算性能潜力;重点攻关异构算力合池、分布式加速框架等系统级创新技术,推动面向大模型的人工智能训推集群建设的标准化和规范化,有效缓解算力资源瓶颈。

*本文刊载于《通信世界》

总第948期 2024年7月25日 第14期

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  近日,京东自营旗舰店推出了一项名为“法国30天盗抢保”的服务。当用户在法国使用奥运手机期间发生被盗或被抢事件,并提供当地报警记录等材料后,京东将在购买金额限额...
手机
  微软今天发布了其截止2024年6月30日的季度和全年财报,营收和净利润均实现了显著增长。  根据财报数据,微软在2024财年的总营收达到了2451亿美元,与上一财年相比增长...
互联网
1
3