缩略图
Scientific Research

面向智算中心间互联的光网络关键技术研究

作者

宋启冬

中国移动通信集团黑龙江有限公司 150080

引言

在数字经济蓬勃发展的进程中,人工智能技术持续演进,对算力资源的需求呈现出显著的增长态势。智算中心作为支撑算力供给的重要基础设施,其建设规模与数量均处于稳步上升阶段。在此背景下,分布式集群组网模式凭借其独特优势,逐渐成为满足大规模算力需求的重要选择,通过整合多个物理机房资源协同开展模型训练工作。光网络凭借自身良好的传输性能,在智算中心互联架构中发挥着重要作用。因此,对面向智算中心互联的光网络关键技术开展深入研究,或将为智算中心性能优化以及人工智能产业发展提供有力支撑。

1 智算中心发展对光网络的新要求

1.1 大规模提升算力

智算中心常部署大规模 GPU 集群以应对人工智能复杂计算任务。以深度学习模型训练为例,面对海量数据处理需求,光网络的带宽性能至关重要。研究数据显示,具备高带宽特性的光网络能够有效保障智算中心间数据传输效率,促进计算节点间的协同交互,从而优化GPU 集群的算力释放。反之,若光网络带宽资源不足,可能在一定程度上影响 GPU 集群计算效率,数据传输延迟或成为制约计算资源充分利用的潜在因素,进而导致实际算力与理论预期存在差距。

1.2 高吞吐提高容量

在智算中心间数据交互需求日益增长的背景下,光网络容量提升成为重要研究方向。研究人员尝试通过多波段扩展、频分复用、空分复用等技术途径,探索如何在有限物理资源条件下拓展数据传输通道与速率。目前,扩展 C 波段与扩展L 波段技术已进入商用阶段,相关实验表明其传输波段范围可达 12THz,配合单波长400Gbit/s 技术,单根光纤理论容量可达 32Tbit/s。这类光网络技术在应对智算中心大规模数据传输时展现出良好潜力,有望通过提高数据传输效率,改善数据传输过程中的拥塞与延迟问题。

2 面向智算中心间互联的光网络关键技术

2.1 光模块技术

2.1.1 LPO/LRO 技术

在智算中心大数据量传输场景下,传统光模块的带宽能力或面临一定挑战。LPO(Linear

Power Optics)技术凭借其易插拔、易维护的特性,在功耗优化与传输时延控制方面展现出良好潜力,据相关研究显示,该技术有望实现约 50 % 的光学能耗节省与 2 5 % 的交换机能耗降低,可为智算场景的大带宽低功耗需求提供一种可行方案。LRO(Linear Receive Only)光模块采用发端部署DSP 芯片、接收端线性接收的架构,尽管其在功耗与成本优化效果上相较于LPO 技术稍显逊色,但相比传统全重定时模块仍具备一定程度的改善。在短距光模块应用场景中,结合100G 与200G光口速率,LRO 技术或可适配 400G 与800G 短距光模块部署,为智算中心间短距离、高带宽的数据传输提供新的技术思路。

2.1.2 CPO 技术

CPO(Co-Packaged Optics)技术通过将光引擎与交换机芯片共封装,在降低功耗、提升单路传输速率、减少电路损耗等方面展现出一定优势,有助于推动带宽的进一步优化,并且在提高集成度和降低成本方面具备潜在价值。在高速互联场景下,该技术与智算中心间高速、大容量的数据传输需求存在适配性。考虑到数据中心规模持续扩张与数据流量不断增长的趋势,CPO 技术或在未来智算中心间互联光网络中获得更为广泛的应用,成为提升光网络性能的重要技术发展方向之一。

2.2 光交换技术

OCS(Optical Circuit Switching)即光路交换技术,通过规避传统交换中的“光-电-光”转换环节,在一定程度上降低了传输时延与功耗,并展现出全光透明特性。在智算中心间互联的应用场景下,OCS 技术有望减少数据传输过程中的信号转换损耗,提升传输效率。

2.3 光纤传输技术

2.3.1 新型光纤的优势

新型光纤技术在智算网络中心间互联领域展现出潜在价值。以空芯光纤为例,其独特的空气介质结构使其具备较低的传输时延、非线性效应及损耗水平,实测数据显示该类型光纤的传输延迟相较于普通单模光纤存在约 30 % 的改善空间;在维持相同传输时延的条件下,其有效覆盖范围可扩大近 这些特性或为长距离、大容量数据传输提供新的解决方案,有望满足智算中心间超远距离、大带宽、低时延的传输要求。

2.3.2 长距传输再生技术

在智算中心间互联光网络的长距传输体系中,可编程拉曼放大器作为再生技术的重要实现方式,其性能表现受到波段扩展技术的显著影响。该设备具备超宽谱增益的灵活调节能力,在光信号的放大与再生环节,为长距离传输的信号质量提供了一种潜在保障机制,有助于满足智算中心间大容量数据交互对传输链路的性能要求。从实际应用效果来看,在超长距离的智算中心互联场景中,可编程拉曼放大器对光纤传输损耗的补偿作用,或能为数据传输的可靠性带来积极影响。

3 未来发展趋势

3.1 数字孪生技术的应用

数字孪生技术有望成为推动智算光网络发展的关键技术方向。通过构建数字孪生模型,可对网络运行状态进行动态模拟与趋势研判。该模型基于实际网络数据,能够对不同业务负载下的网络性能展开模拟分析,为运维人员提供潜在风险预警与决策参考。此外,数字孪生技术还可为网络优化升级提供数据与模型支撑,通过模拟多种优化方案并评估其可行性,为技术决策提供重要依据,进而提升智算光网络的运行效能与可靠性。

3.2 自智的智算光网络发展

自智的智算光网络有望构建“感知-决策-执行-保障”的闭环体系,为 AI 赋能的光+计算系统提供技术支撑。在此架构下,网络可借助传感器等设备对运行状态、业务需求等关键信息进行实时监测;基于人工智能算法对采集数据进行深度分析,进而提出潜在的优化方案;通过执行系统尝试实施网络拓扑调整、资源动态分配等优化措施;并依托保障机制对优化效果进行跟踪评估,持续维护网络运行稳定性。

结束语

智算中心间互联的光网络关键技术对人工智能产业发展与智算中心性能提升存在重要价值。在光模块、光交换、光纤传输及算网协同管控等技术领域的研究实践,在一定程度上契合了多方面的需求。现阶段算内与算间技术发展仍面临一些亟待突破的瓶颈,不过随着数字孪生技术的应用拓展以及自智化智算光网络的演进,该领域有望实现更智能、高效、可靠的发展。后续或可持续深化技术研发与创新探索,推动光网络关键技术迭代升级,从而更好地匹配不断增长的智算需求,为数字经济发展筑牢网络基础。

参考文献

[1]张春宇.光网络系统故障智能预测与分析技术研究[D].北京:北京邮电大学,2022.

[2]李鸿,刘武,罗鸣.基于机器学习的光网络监测与优化方法[J].光通信研究,2024(3):5-14.

[3]郭学让,蒋一可,李亚平,等.持续性灾害下风险感知的光网络业务恢复算法[J].光通信研究,2024(2):10-15.