中国电信刘昊:算网协同,开放光网络助力智算中心高质量发展

业界
TIME
2024-05-23 15:55
C114通信网 水易
分享

  C114讯 5月23日消息(水易)今日,CIOE中国光博会与C114通信网联合举办“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家,深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

  中国电信研究院高级工程师刘昊表示,AI大模型的出现,驱动新型算力基础设施建设不断发展,传统数据中心加速向智算中心转型,对网络的规模、时延、带宽和可靠性等方面提出新的发展需求与挑战。

  数据显示,截至2023年底,我国智能算力规模突破230EFLOPS,全面超过通用算力,并且差距逐渐拉开。中国电信积极响应国家政策,在全国范围内部署智算中心集群,推动智算中心高质量发展。

  智算中心内部光互连

  中国电信集团科技委主任韦乐平曾表示,以ChatGPT为代表的AI大模型近中期主要影响DCN网络。DCN顾名思义就是数据中心内部网络,智算中心内部网络也包括其中,AI大模型训练需要DCN具备大规模、高带宽、低时延、零丢包等能力。

  刘昊介绍,AI大模型训练参数已达到千亿-万亿的级别,需要千/万卡GPU集群来满足计算任务,大规模组网成为刚需。同时,GPU网卡之间需要传输大量参数、梯度信息,高带宽传输能力不可或缺。对于实时性要求高的应用,难以预测的动态时延会对网络性能造成严重影响,需重点关注时延和抖动指标。更为重要的是,千分之一的丢包率,将导致AI算力下降50%。因此需要构建无损数据中心网络。

  目前智算中心大规模组网主要有IB和RoCE两种方案。对于IB组网,英伟达能够提供从GPU到服务器到交换机的全家桶式一体化解决方案,但成本高。RoCE基于以太网RDMA技术,目前已发展到第二代,可以复用现有的以太网设备,成本低,备受青睐。

  对于智算中心网络的高带宽需求,直接反映在光模块的应用上。随着交换芯片容量来到51.2T,800G光模块开始崭露头角。面对光模块大规模部署应用,成本和功耗问题日益显著,打造绿色、低碳的智算中心势在必行。

  为了改善千卡/万卡集群算力消耗的功耗和时延,LPO/LRO新型光模块备受关注。刘昊介绍,目前产业正加快标准化进程,今年3月,12家单位成立LPO-MSA联盟,旨在定义LPO系列标准,不过能否实现规模化应用有待时间检验。

  想要进一步降低设备的处理和转发时延,基于SDN的光路交换技术(OCS)来到聚光灯下,为智算提供一种新型组网方案。目前谷歌和英伟达都有相应方案,器件方面Lumentum、光迅都称有相应产品。不过,是否能充分发挥其自身优势取决于应用方式,控制器需要升级以满足无损应用。

  智算中心之间光互连

  AI大模型的持续火热,对算力的需求持续攀升,超大规模智算中心资源日渐稀缺,跨区域算力协同成为算力资源的重要补充。

  刘昊介绍,以中国电信为例,目前已经在全国范围内部署众多智算中心,同时大量中小型智算中心算力不足,考虑到合理利用,通过对跨区域中小型智算中心进行组网,实现远距离算力协同调度。

  对于智算中心拉远需求,WDM/OTN是不二之选,其大带宽、低时延、强保护等特性,能够为智算提供稳定的传输管道。刘昊表示,不同于在同一智算中心执行训练任务,智算中心拉远面临一系列挑战,包括传输时延对模型训练的效率影响,远距离通信如何做到无损传输,传输设备引入的建设成本,不同类型设备之间能否解耦。

  在刘昊看来,拉远场景下开放的智算光网络系统有助于提高模型训练效率,短期方案是信息实时共享,这需要制定协议,如传输侧感知无损业务类型、带宽、VLAN等,IP侧感知时延、带宽等;终极目标是控制器管理所有设备,需要跨专业协同,难度大。整体来看,DCI场景下跨域设备管控方案建议标准先行。

  据了解,在开放解耦的道路上,中国电信具备一定的经验积累。中国电信的DCI-BOX盒式波分设备经过两期发展迭代,具备城域内组网能力,支持10G-100G业务接入能力,单波200G/400G,具备光层组网能力,可覆盖满足大带宽数据中心互联、城域波分组网场景。

  对于DCI-BOX能否继续在智算场景发挥价值?刘昊认为,盒式波分设备支持城域组网,具备向800G演进的水平,其开放解耦的特征能够支撑智算拉远场景应用。

  刘昊介绍,近期中国电信北京公司在现网完成城域三节点无损智算网络部署,采用800G组网方案,分布式训练性能达到集中式单智算中心训练性能的90%以上,证实了分布式无损智算网技术方向的可行性。后续,中国电信将在此基础上进一步验证更高速率组网方案,以及尝试采用空芯光纤降低传输时延,验证其对运算效率提升的影响。

  

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  5月21日,孝感市政府新闻办召开2024年孝感科技活动周新闻发布会,新闻发布会上获悉,由孝感市科技局、市委宣传部和市科协主办的2024年孝感市科技活动周将与全国科技活动...
业界
  LV高奢品牌母公司酩悦・轩尼诗-路易・威登集团(LVMH)宣布,与阿里云签署为期五年的云计算长期合同,通过阿里云及通义模型来优化高端零售体验。  据了解,LVMH集团自2019...
业界

相关推荐

1
3