随着各行业数字化转型进度加快,5G、人工智能等新技术迅速普及应用,算力需求快速增长。一年来,ChatGPT为代表的大模型开发和应用取得巨大进展,带动算力需求进一步提升。在数据中心与高性能计算中心高速发展的同时,互连技术也需要随之升级演进,以满足数据传输的大带宽、低时延、低能耗等要求。相比于电信号,光信号具有传输带宽大、传输损耗小、抗干扰能力强、可高速无串扰并行传输等诸多优势,因此光互连成为通信发展的重要技术方向,如何发展片上与片间光互连以突破传统电互连瓶颈,成为当前的研究热点之一。
片上光互连
大规模集成易引发信号传输瓶颈问题,其解决思路之一是使用片上光互连代替电互连,数据传输由芯片上的光波导链路实现。相较于电,光传输损耗小、带宽大,片上光互连可以支撑实现大量长距离通道,若扩展到整个晶圆,则可实现晶圆级光互连网络。
片上光互连的核心是光电子集成芯片
光电子集成芯片由集成在同一块衬底上多种不同功能的有源器件和无源器件构成,通过光波导进行互连通信,进而实现具有特定功能的片上光学互连处理。激光器、调制器和探测器是光互连系统的核心集成器件,可分别采用波分复用、偏振复用及模分复用技术提高片上光互连的传输容量。目前,针对单一物理维度光信号的复用、解复用器件已经较为成熟。而多种复用方式的综合运用,如波长-偏振-模式混合复用等,可进一步提高片上光互连系统的通道数量和传输容量,这也是片上光互连的重要发展趋势。此外,选择和设计合适的片上拓扑结构对性能提升也具有重要意义。片上光互连架构不仅决定着片上网络中不同节点的互连方式,同时也影响路由器的端口和网络链路数量,进而影响网络的时延、功耗和可靠性等性能。
片上光互连尚处于研究阶段
美国加州伯克利大学于2015年制造出一种片上微处理器,使用光实现处理单元与存储单元之间的双向互连通信,每个方向可提供2.5Gbit/s带宽,这一成果具有重要意义。Intel也进行了针对性研究,并在2020年研究院活动上展示了其在微环调制器、全硅探测器、集成半导体光放大器、集成多波长激光器等光互连核心器件方面的重要进展。曦智科技于2022年在“第二届高性能芯粒与互连架构国际研讨会”上,介绍其实现了硅光芯片和CMOS电芯片的垂直封装,由光波导替代铜导线,形成片上光网络进行数据传输。该系统的通道数为512,单通道频率4GHz,片上总带宽2Tbit/s。实测数据显示,该计算系统能在1ns内完成多个计算核之间“All-to-All”的数据广播,这将大幅提高每个计算核的算力利用率。
片间光互连通
常情况下,光电合封(C P O,C o-p a c k a g e d Op tics)面向大型以太网网络交换机,交换芯片与光芯片封装在一起,与外部其他芯片之间形成光互连;而光I/O(Optical I/O)面向分布式计算系统,计算芯片与光芯片封装在一起,与外部其他芯片之间形成光互连。本文将这两种形态统称为片间光互连。
CPO:解决数据中心网络中交换芯片与光芯片之间的互连问题
CPO通过将光引擎放置在靠近主机ASIC的位置,最大程度地减少高速电通道损耗和阻抗不连续性,从而实现更高速度、更低功耗的I/O驱动。CPO相较于可插拔光模块,带宽密度提升一个数量级,能量效率优化40%以上。
目前报导的CPO光引擎技术方案主要为VCSEL阵列方案和硅光集成方案。然而,伴随着VCSEL调制速率的提升,芯片可靠性下降,在56GBaud速率尚没有稳定可靠的大规模集成VCSEL阵列,因此基于VCSEL阵列方案的多路并行光互连研究大幅减少。硅光集成技术在近年来成为CPO光引擎的主要方案。硅光不需要气密封装,CMOS兼容更易与电芯片集成,且硅光调制器和探测器均可支持56GBaud以上速率。
当前CPO技术主要由交换机与光模块公司在推进,C P O样机在近三年相继发布。在“O F C 2 0 2 0”会议上,In tel推出首款CPO样机,由1.6Tbi t/s的硅光引擎与12.8Tbi t/s的可编程以太网交换机集成。在“OFC 2021会议”上,Ranovus发布了Odin品牌模拟驱动CPO 2.0架构。在“OFC 2022会议”上,Mar vell展示了其首款CPO样机,带宽为1.6Tbit/s;Ranovus基于AMD的Xilinx计算加速平台进行CPO 2.0的联合展示。在“OFC 2023”上,Broadcom和Marvell分别发布了51.2Tbit/s的交换芯片。总体来看,终端用户、设备制造商以及光器件供应商均涉足其中,形成了初步的产业生态。
据Yole预测,CPO市场将从2022年的600万美元增长到2033年的2.87亿美元。CPO数据中心市场于2022年正式起步,出货将以800Gbit/s和1.6Tbit/s端口为主,到2027年CPO端口将占近30%。CPO需要高度集成的光学以及硅芯片技术,难度较大,从可插拔到CPO的转换对企业研发实力提出较高要求,当前CPO产业链包含设计、光引擎供应商、激光器供应商、交换机厂商、硅光代工厂、设备商等。
2020年,业界开始对发展CPO标准形成共识。标准进展与技术和产业进展密切相关,美国、中国及欧盟率先开展标准化工作。光互连论坛(OIF)、板载光学联盟(COBO)、联合开发基金会(JDF)、国际光电委员会(IPEC)、中国计算机互连技术联盟(CCITA)等标准组织均针对CPO作出了一系列部署。
光I/O:解决计算芯片CPU、GPU、XPU等之间的互连问题
光I/O利用光具有的低功耗、高带宽、低延迟等优势,取代传统的电I/O方案,芯片输入输出的为光信号,进而构建分布式计算网络。在相同能效情况下,光I/O的边带宽密度与UCle、NVlink、PCIe等电互连相当,但传输距离远超电互连。
光I/O需要物理层和互连协议多重创新。在物理层方面,对于CPU而言,通用的对外通信通过PCIe协议实现。目前,数据中心内的光互连解决方案绝大部分针对以太网设计,基于PCIe的光互连解决方案几乎处于空白状态。相比于以太网,PCIe信号的通道数较多,单通道带宽较小,调制方法不同,对延迟的容忍度相对较小。因此,基于以太网的光互连方案无法直接套用到PCIe应用场景,需要重新定义和设计。PCI-SIG于2023年8月宣布成立PCIe光学工作组,其职责是致力于通过光学接口实现PCIe。
在协议层方面,当前主流的分布式计算主要使用基于以太网的软硬件生态系统,而这一系统存在诸多的提升空间。目前基于以太网的方案需要使用内存屏障甚至软件设定临界区,导致性能开销大、延迟长,在复杂的控制流程之下甚至会出现“死锁”。相比以太网协议,CXL(Compute Express Link)协议提供了高效的数据同步,可大大降低软件管理的复杂度,降低CPU处理网络功能开销。
目前各大芯片巨头均已在光I/O领域进行布局,其中包括Intel、AMD、NVIDIA等。Intel已经与Ayar Labs合作多年,多次在OFC上展示其FPGA芯片间通过光I/O实现信号互连的阶段性进展。AMD通过收购Xilinx,整合了其硅光团队,在“ISSCC 2023”展示了其初步的进展。NVIDIA与Ayar Labs展开合作,其内部也有自己的硅光团队开发相关技术。Ayar Labs在光I/O方面具有较强实力,与多位伙伴积极合作,其在“OFC 2023”上展示的TeraPHY可以实现双向4.096Tbit/s数据传输。据Yole预测,光I/O市场将从2022年的500万美元增长到2033年的23亿美元。
由于面向不同应用场景,两种片间光互连的性能存在较大差异。从带宽和能效角度来看,根据Intel数据,单个CPO模块的带宽为1.6~3.2Tbi t/s,带宽密度为50~200Gbi t/(s·mm),能效为15pJ/bit;而光I/O的总带宽为40Tbit/s,带宽密度为5Tbit/(s·mm),能效为3pJ/bit。Ayar Labs数据显示,同样能效情况下,光I/O的边带宽密度比CPO的大一个数量级。从延迟角度来看,根据Ayar Labs数据,光I/O的延迟在5ns左右,对应的误码率为1e-15,而CPO为了达到相同的误码率,需要使用FEC技术,其延迟在100~150ns。整体上看,光I/O比CPO的性能要求更高。
总结展望
片上光互连的核心是光电子集成芯片,当前处于研究阶段。CPO的研究聚焦51.2Tbit/s交换机,产业化与标准化进程已经启动。光I/O特别适用于计算结构,当前已有产品小批量出货,未来仍需物理层和互连协议进一步创新。无论片上还是片间光互连仍有许多亟待解决的关键问题,如生态尚不成熟、功能选择较少、编程模型缺乏业界共识、可靠性存挑战,以及面临相干、线性驱动可插拔等其他技术挤压等,需要业界的积极探索与合作,共建完善的技术、产业与标准生态。