华为引领智算中心光互联革命 DC-OXC以光为基改写全球AI竞合规则

人脑网讯 4月21日专稿(蒋均牧)当大模型参数量突破万亿级、智算集群规模向百万卡迈进,智算中心作为数字经济的核心基础设施,正面临前所未有的挑战与机遇。如何以更低的功耗承载更高的带宽,如何以更灵活的架构支撑动态的算力需求,如何以更可靠的联接保障持续的训练?答案,或许就藏在光互联技术的革新中。

华为引领智算中心光互联革命 DC-OXC以光为基改写全球AI竞合规则

就在4月17日下午举办的“超大规模智算中心:1.6T时代的全光互联”上,华为光产品线专家刘晓妮系统阐述了智算中心光互联的演进趋势与华为创新成果。她指出,谷歌作为行业先行者,已在数据中心网络(DCN)核心层和智算参数面规模化部署全光交叉(OCS),完成了90%的替代,并推动OCS从“单点突破”走向“全局重构”。而华为推出的数据中心全光交叉(DC-OXC)解决方案,通过光电混合架构与动态拓扑调度能力,为超万卡集群的弹性扩展与高效协同提供了全新范式。

从谷歌实践,看光互联核心价值

LightCounting数据显示,2024年以太网光模块市场规模突破100亿美元,同比增长近100%,未来五年仍将保持15%~18%的复合增速。增长背后,是超大规模集群对高速互联的极致追求:英伟达Rubin架构下,288卡GPU集群需5184个1.6T光模块,传统电互联在密度与功耗上渐渐变得难以为继。

谷歌的探索为行业提供了重要参考,其Jupiter网络通过OCS替代传统电交换机核心层,实现了跨代际网络的高效互通。刘晓妮援引谷歌公开数据指出,OCS的引入使DCN核心层不再受电芯片迭代周期束缚,网络拓扑可按流量亲和性动态调整,效率提升10倍,停机时间减少98%,同时降低40%功耗与30%设备投资。

刘晓妮强调,OCS不仅是联接工具,更是算力资源动态调度的核心枢纽。谷歌将OCS下沉至智算参数面,基于3D-Torus架构构建TPU集群。以TPU v4为例,64个机柜通过OCS互联,形成4096卡的超大规模算力单元,故障隔离效率提升50倍,集群可用性从8%跃升至75%。谷歌TPU v7延续了这一架构,并在6000卡集群中完成PaLM大模型训练,验证了光互联在超大规模AI训练中的可行性。

华为DC-OXC:破解智算中心三大困局

随着智算集群规模的迅速膨胀,全球智算中心建设普遍面临着“规模受限、可靠性衰减、效率瓶颈”三大挑战。有鉴于此,华为推出了DC-OXC解决方案,以三层创新实现破局。

首先是架构之变,从“堆叠枷锁”到“乐高式扩展”:传统CLOS架构受限于电交换机端口密度,万卡集群需多层堆叠,导致时延与拥塞点激增。华为DC-OXC在顶层构建全光交换平面,支持计算单元(POD)按需分批接入,理论可扩展至百万卡规模。“光层一次规划、电层分步扩容”的模式,既降低初期投资门槛,又避免重复布线带来的资源浪费。

可靠性跃升,光模块故障削减92%的“零妥协”:据统计,光模块故障占智算网络故障的92.3%,而华为DC-OXC采用免光模块设计,通过MEMS微镜阵列实现全光交换,端口可靠性提升20%以上。实测数据显示,光电混合架构下,网络平均无故障时间(MTBF)较全电方案优化超20%,年停机时间减少25%。华为CloudMatrix 384超节点更将断点恢复时间压至10秒级,支撑大模型训练稳定运行40天。

效率优化,跳数减1,性能增益3.5%:在时延敏感型场景中,华为DC-OXC通过扁平化架构将传输跳数从5跳降至4跳,单跳时延降低5~6μs。仿真和实测显示,可助力GPT-MoE等模型训练任务吞吐量提升1.5%~3.5%,小规模集群实测性能增益达2%。在推理场景下,一次All-to-All通信时延减少6.57μs,58层模型静态时延累计降低762μs,10ms场景性能可提升7%。此外,光互联的物理隔离特性还为多租户场景提供了更高的安全性和灵活性。

从谷歌的OCS规模化实践,到华为DC-OXC的多场景突破,光互联正从“技术选项”升级为“战略必选”。基于光电混合架构的“稳定光底座”将成为平衡规模、效率与成本的核心基础设施,而华为通过端到端光技术创新,为全球智算中心提供了一条清晰、高效的演进路径——以光为基,改写全球AI竞合的规则。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7279.html

(0)
人脑网的头像人脑网
上一篇 2025年4月23日 下午3:01
下一篇 2025年4月23日 下午3:03

相关推荐

  • 汇付支付丨Webhook 助力商户灵活集成斗拱平台

    引言: 在数字化商业浪潮汹涌澎湃的当下,商户们都在积极寻求更高效、更灵活的方式来融入各类强大的平台,以提升自身竞争力。而 Webhook 技术的出现,为SaaS、软件公司和商户与斗拱之间搭建了一座便捷、高效的桥梁,让集成变得轻松自如。 Webhook介绍 Webhook 是一种轻量级的、基于 HTTP 协议的事件通知机制。简单来说,当特定事件在斗拱平台发生时…

    2025年4月14日
    1600
  • 日产发布其首款全球插混皮卡车型

    4月23日,日产发布其首款插电式混合动力皮卡Frontier Pro PHEV ,该车型是日产首款在中国设计、研发和生产的全球皮卡车型,由郑州日产中日研发团队共同设计生产。 日产中国管理委员会主席、东风汽车有限公司总裁马智欣宣布,到2027年夏季,日产将在中国投放10款新能源汽车,其中日产品牌从5款增加到9款。(界面新闻记者 刘嘉欣)

    2025年4月23日
    500
  • 官宣!中国移动集团副总工程师王晓云正式升任总工程师

    人脑网讯 4月14日消息(九九)官宣!中国移动任命王晓云出任集团总工程师。这是她自2023年任集团副总工程师后的又一次重要跨越,成为三大运营商近年来首位女性总工程师。王晓云同时担任中共第十九届、二十届中央候补委员,并入选过中国工程院院士增选有效候选人。 公开资料显示,王晓云出生于1968年,毕业于无线通信专业。她常年深耕中国移动集团的技术研发工作,历任中国移…

    2025年4月15日
    1500
  • 中方已停止接收波音客机?商务部回应

    界面新闻记者 | 翟瑞民 波音公司拟交付飞机从中国飞回美国一事近期引发广泛关注。2025年4月29日,商务部网站发布该部新闻发言人就波音公司飞回拟交付飞机答记者问一文。 有记者问:据媒体报道,近日,波音公司飞回3架拟交付中国航空公司的波音737Max飞机,称中方已停止接收波音客机,请问中方有何评论? 商务部新闻发言人表示,我们注意到有关报道。中美两国在民航领…

    2025年4月29日
    200
  • 孩子王:公司AI产品智能体开发正在加快推进,目前已完成多款智能体的技术落地

    每经AI快讯,有投资者在投资者互动平台提问:请问公司与字节的火山、豆包、扣子合作开发AI智能体,目前取得了哪些进展?MCP协议在公司开发智能体过程中,对于调取豆包、Deepseek、通义千问等各类模型,是否有帮助?公司是否在开发智能体的过程中使用了MCP协议? 孩子王(301078.SZ)4月23日在投资者互动平台表示,第一,公司AI产品智能体开发正在加快推…

    2025年4月24日
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信