刘韵洁
中国工程院院士,网络通信与安全紫金山实验室主任
“东数西算”是我国为促进数字经济发展、建设数字中国而推动实施的一项国家战略工程。算力和网络的发展日益呈现一体共生趋势,网络从连接算力演进为动态感知算力、可定制承载算力,实现在网计算随需随算,算力无处不在。
数字经济发展对算力网络提出重大挑战
ChatGPT的出现让“算力网络”这一概念受到越来越多的关注,但美国通过限制相关技术和高端芯片的出口不断对我国进行挤压,企图通过5纳米、7纳米等高端GPU(图形器处理)芯片对中国禁运,让中国的算力尤其在智能算力方面永远落后于美国。面对这种情况,我们不仅要尽快突破算力网络关键核心技术,更要找到适合自身国情的算力网络发展路径。
以ChatGPT-3为例,它有1750亿个参数,其训练使用了微软的人工智能计算系统,该系统由1万个V100GPU和28.5万个CPU组成,每个GPU服务器拥有400Gb/s的网络性能,这样才能满足训练所需约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)的算力。由于美国高端人工智能芯片禁售,我国若要满足如此庞大的算力需求,除阿里、腾讯等大算力中心有这样的能力外,对于普遍需要大模型训练的单位而言,比较现实的路径就是把多个分散的数据中心通过网络连接起来,形成算力集群,开展协同计算、并行计算等来弥补单个数据中心算力不足的劣势。
然而,数据中心之间的连接和海量数据的传输又对网络提出更高的要求,即要能实现超长距离无损数据传输。国际上做过相关试验,在算力网络条件下,如果丢包率大于1%,传输效率将下降50%;如果丢包率大于2%,传输效率则将接近于0。这对我们实现数据远距离无损传输提出很大挑战,因此,我们建议利用确定性网络,并结合RDMA(远程直接数据存取)等无损传输技术来提升国家整体算力和网络资源效能。
确定性网络技术成为推动算力网络发展的关键
确定性网络技术得到国际同行的认可,相关研究也有很多。例如,IETF(国际互联网工程任务组)在2015年10月成立DetNet(确定性网络)工作小组,侧重研究为网络层数据传输提供确定性延迟、丢包、抖动以及高可靠性的标准和能力;3GPP(第三代合作伙伴计划)于R16、R17、R18标准先后支持IEEE(电气与电子工程师协会)TSN (时间敏感网络)协议的5G网络系统,确立5G系统的确定性机制并进行标准化;美国能源部、国际电工委员会(IEC)等组织也都制定了相关标准。国内方面,中国信息通信研究院联合国内多家网络相关单位共同组建的网络5.0产业和技术创新联盟,开展DIP(确定性IP)研究;工业互联网产业联盟启动“时间敏感网络(TSN)产业链名录计划”。
确定性网络正成为未来网络产业发展的核心,也是我国在网络领域实现“换道超车”的重要历史机遇。那么,如何实现网络的确定性服务能力呢?这就需要一个新的网络体系架构。基本思路就是把网络软硬件设备进行解耦,将网络资源尽量开放,功能细化,变成可重构、可调度的模块,实现网络资源的灵活调度控制和按需配置。基于此,我们在全球率先提出“服务定制网络(SCN)新型网络体系架构”,在网络承载、网络控制、网络服务三个平面实现多项核心技术突破,改变传统互联网TCP/IP协议僵化和不可控问题,实现互联网核心技术的自主可控和发展主动权。
而这个架构的实现需要有一个大网的操作系统,它就像网络的“超级大脑”一样,能对整个网络资源进行实时数据采集和分析,对网络进行融合控制,从而确保网络服务能力确定性可控。我国具有自主知识产权的大网操作系统目前已在400多个城市、1100多个节点的骨干网上稳定运行了5年。
在大算力场景下,确定性网络在满足数据高速、远距离、无损传输需求方面具有明显的优越性。从未来网络试验设施(CENI)现网测试数据可以看出,基于确定性网络技术的传输效率远远优于传统网络技术,如相较于FTP(文件传输协议)效率可提升36倍,相较于QUIC(快速UDP网络连接)效率可提升15倍,且对于线路延时、丢包的鲁棒性更好。因此,确定性网络将成为支撑大算力应用高速传输的坚实底座。
确定性网络正在助力数字经济高质量发展
实际上,目前相关团队正在规划将确定性网络应用在“东数西算”工程项目中,依托未来网络试验设施建设连接“东数西算”八大枢纽节点数据中心的“确定性新总线”,项目完成后将极大地提升我国算力资源使用效率,为电力、气象、能源等重大应急安全领域提供安全、可靠、高效的网络支持能力,助力我国数字经济高质量发展和碳达峰、碳中和目标的实现。
“东数西算”工程解读。
ChatGPT的出现加速了人工智能大模型时代的到来,未来每个行业,甚至每个企业都可以拥有自己的大模型,这要求网络能够提供全域确定性服务能力。目前,我国已基于未来网络试验设施构建了覆盖全国35个城市的广域确定性网络,可实现跨一万公里数据传输,端到端的时延抖动小于50微秒,做到零丢包、不乱序,可为将来不同行业、不同场景下的大模型训练提供确定性网络支撑能力,大大提升了大模型的生成效率。
此外,确定性网络还可为工业互联网、能源互联网、元宇宙、科学研究等典型场景提供高效的网络支撑能力。以“中国天眼”——500米口径球面射电望远镜(FAST)为例,当前,FAST每小时产生超过7TB的巡天数据,这对网络传输、数据存储、计算处理能力都带来严峻挑战。项目团队依托未来网络试验设施,建立算网融合的FAST巡天科研环境,协助FAST团队突破海量科学原始数据的快速传输、高通量计算难题,极大地提升了技术创新效率。
“中国天眼”——500米口径球面射电望远镜(FAST)位于贵州省黔南布依族苗族自治州境内。面对互联网下半场发展,即从消费领域进入实体经济的历史机遇期,确定性网络有望解决传统互联网拥塞无序的问题,推动互联网从“尽力而为”到“确保所需”的技术体系变革。希望我们能抓住这一重大机遇,不断突破确定性网络核心技术,不断发展完善确定性网络相关产业生态,实现核心标准、芯片、设备的自主可控,引领算力网络技术和应用的发展。