16.8K,4天!400G LPO在阿里云CPN 1.0现网跑出“加速度”
误码率低两个量级、时延降低50ns、温度直降15℃……实测干货来了
大模型训练到底有多“烧”光模块?
功耗、时延、误码率、温度,样样都是坎。
过去大家都觉得,带DSP的传统光模块虽然“稳”,但功耗高、发热大、还不便宜。
而LPO(线性可插拔光模块)喊了好几年,到底能不能在现网大规模用?
阿里云和锐捷给出了实践答案:能,而且很好用。
16.8K模块,4天从上电到验收
双方这次合作基于阿里云飞天企业版CPN1.0智算网络,在某大规模集群中,累计交付了400G LPO模块16.8K(没错,1.68万个)。
最让人惊喜的是交付速度:
从上电,调测,验收完毕仅4天。
传统DSP方案搞这么大批量,少说得两周。4倍效率提升,客户业务上线直接快人一步。
误码率实测:比传统方案好两个量级
现网跑出来的数据最硬气。
锐捷在现网统计了海量链路误码率(BER),结果LPO全面碾压:
LPO全网平均误码率:E-10
传统DSP光模块平均误码率:E-8
整整低了两个数量级。
放张对比表更直观(样本数越大,说明该误码率下链路越多):
误码率
二期LPO
二期VR4DSP
一期DR4DSP
e-09
444
151
744
e-10
2570
141
650
e-11
3327
26
327
e-12
2960
2
191
LPO的样本在高量级(e-10以下)明显更集中,链路质量稳定可靠。
低误码率意味着更少丢包重传,大模型训练不容易“卡死”,这个价值算力集群都懂。
温度:LPO平均31.5℃,传统46.5℃
温度直接关系可靠性和寿命。
现网跑下来,LPO模块平均工作温度只有31.5℃,而传统DSP模块飙到46.5℃。
温度区间
LPO样本
DSP样本
29~32℃(大量)
5373
很少
35℃以上
极少量,且呈减少趋势
逐步上升
平均温度
31.5℃
46.5℃
低了15℃,什么概念?
光模块温度每降10℃,故障率大约减半。低故障率=少掉卡、少断连。
按典型512集群算,5年CTO周期内,低故障率可减少算力损失400万以上——这还没算训练中断的隐性成本。
时延:单端口降低50ns LPO去掉了DSP芯片,时延天然低。
实测端到端链路平均单端口延时:比传统方案降低约50纳秒。
别看50ns小,在万卡级All-Reduce通信里,差50ns可能让整个迭代慢一截。
更低的时延=训推跑得更快、同等算力能承载更大模型、更高并发。
功耗:单体降50%,一年省20万电费
LPO功耗优势是“祖传技能”。
锐捷400G LPO比传统DSP模块单体功耗降50%。
别小看一个模块省几瓦,512集群堆到16.8K模块,一年节省电费约20万元。
这还没算散热省下来的空调钱。
为800G LPO铺路:从CPN1.0到2.0
这次16.8K大规模交付,不是终点,是起点。
阿里云已经明确,800G以太网智算集群2026年规模上线,并且重点储备LPO/LRO技术。
锐捷这边,400G/800G LPO都已具备量产能力,1.6T LPO原型也有了。
在OFC2026上,双方还联合发表了面向102.4T交换机的800G LPO适配成果。
这次CPN1.0上的成功,直接为CPN2.0向TH6+800G LPO演进复制了经验。
技术领先、迭代持续、收益可复制——10万卡800G时代,稳了。
一句话总结
16.8K模块,4天交付,误码率低两个量级,温度低15℃,时延降50ns,功耗砍一半。
阿里云×锐捷网络(301165),LPO已经从“实验室明星”变成了“现网实干家”。
下一站:800G LPO,十万卡集群见。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com