InfiniBand 与以太网:Broadcom 和 NVIDIA 横向扩展技术战
以太网有望重新成为横向扩展数据中心的主流,而 InfiniBand 在 HPC 领域保持强劲势头。博通和英伟达正在争夺主导地位。
随着人工智能模型规模呈指数级增长,数据中心扩展已从单系统纵向扩展架构转变为涉及数万个互连节点的横向扩展架构。横向扩展网络市场主要由两种竞争技术主导:
InfiniBand:它被称为性能领导者,由 NVIDIA 子公司 Mellanox 推动,利用原生 RDMA 协议提供极低的延迟(低于 2 微秒),并且零丢包风险。
以太网:具有开放的生态系统和显着的成本优势,受到博通等主要参与者的拥护。
2025 年 6 月,随着 Ultra Ethernet Consortium(UEC)发布 UEC 1.0,以太网发起了强势反击,UEC 1.0 是一种重构网络堆栈以实现类似 InfiniBand 性能的规范。凭借多重优势,以太网有望逐步扩大其市场份额。这种技术转变正在重塑横向扩展市场的整个竞争格局。
图1
横向扩展的关键战场:InfiniBand 优势和以太网反击
用于横向扩展的主流 InfiniBand 架构本质上支持远程直接内存访问 (RDMA),其作方式如下:
在数据传输过程中,DMA 控制器将数据发送到支持 RDMA 的网络接口卡 (RNIC)。
RNIC 打包数据并直接传输到接收 RNIC。
由于此过程绕过 CPU,与传统的 TCP/IP 协议不同,InfiniBand 数据传输可以实现极低的延迟,低于 2 μs。
此外,InfiniBand 还具有链路层基于信用的流量控制 (CBFC) 机制,可确保仅在接收方有可用缓冲区空间时传输数据,从而保证零丢包。
本机 RDMA 协议需要 InfiniBand 交换机才能运行。然而,InfiniBand 交换机长期以来一直由 NVIDIA 的 Mellanox 主导,使得生态系统相对封闭,采购和维护成本较高;硬件成本约为以太网交换机的三倍。
表 1.InfiniBand 技术演进
| 年 | 2011 | 2015 | 2017 | 2021 | 2024 | 2027 | 2030 |
|---|---|---|---|---|---|---|---|
| 数据速率 | FDR (十四数据速率) | EDR (增强数据速率) | HDR (高数据速率) | NDR (下一个数据速率) | XDR( 极限数据速率) | 东德 (E) | LDR (E) |
| 带宽/端口(8 通道) | 109 Gbps | 200 Gbps | 400 Gbps | 800 Gbps | 1.6 Tbps | 3.2 Tbps | 6.4 Tbps |
| 带宽/端口(4 通道) | 54.5 Gbps | 100 Gbps | 200 Gbps | 400 Gbps | 800 Gbps | 1.6 Tbps | 3.2 Tbps |
| 带宽/通道 | 13.6 Gbps | 25 Gbps | 50 Gbps | 100 Gbps | 200 Gbps | 400 Gbps | 800 Gbps |
| 调制技术 | NRZ | NRZ | NRZ | PAM4 | PAM4 | PAM6 (E) | PAM6 (E) |
注:(E)表示“估计”。
(来源:TrendForce集邦咨询)
以太网因其开放的生态系统、多供应商、灵活的部署和较低的硬件成本而逐渐受到关注。
为了将 RDMA 优势引入以太网,IBTA(InfiniBand 贸易协会)于 2010 年引入了基于融合以太网 (RoCE) 的 RDMA。最初的 RoCE v1 仅在链路层添加了一个以太网标头,将通信限制在第 2 层子网内,并防止跨路由器或不同子网传输。
为了增强部署灵活性,IBTA 于 2014 年发布了 RoCE v2。它用 IP/UDP 标头取代了第 3 层网络层中的 InfiniBand GRH(全局路由标头)。这一变化使得RoCE数据包能够被标准的以太网交换机和路由器识别和转发,实现跨多个子网或路由器的传输,大大提高了部署灵活性。然而,RoCE v2 延迟仍然略高于原生 RDMA,约为 5 μs,并且需要额外的功能,例如 PFC 和 ECN,以降低丢包风险。
图2

图 2 突出显示了 InfiniBand 和 RDMA 技术下开放式 RoCE 之间的关键比较:
InfiniBand 使用完全专有的封闭协议栈,实现最低延迟。
RoCE v1 模拟以太网上的 IB 架构,但只能在同一层 2 子网内运行。
RoCE v2 使用 IP 网络层,支持跨子网通信,并提供与现有以太网数据中心基础设施的最高兼容性。
表 2.以太网技术演进
| 年 | 2016 | 2018 | 2019 | 2021 | 2023 | 2025 | 2027 |
|---|---|---|---|---|---|---|---|
| 单芯片总带宽 | 3.2 Tbps | 6.4 Tbps | 12.8 Tbps | 25.6 Tbps | 51.2 Tbps | 102.4 Tbps | 204.8 Tbps |
| 单芯片端口数 | 32 | 64 | 64 | 64 | 64 | 64 | 64 |
| 带宽/端口 | 100 Gbps | 100 Gbps | 200 Gbps | 400 Gbps | 800 Gbps | 1.6 Tbps | 3.2 Tbps |
| 通道数/端口 | 4 | 4 | 4 | 4 | 8 | 8 | 8 |
| 带宽/通道 | 25 Gbps | 25 Gbps | 50 Gbps | 100 Gbps | 100 Gbps | 200 Gbps | 400 Gbps |
| 调制 | NRZ | NRZ | NRZ | PAM4 | PAM4 | PAM4 | PAM6 (E) |
注:(E)表示“估计”。
(来源:TrendForce集邦咨询)
综上所述,InfiniBand 具有极低延迟和零丢包等原生优势,这就是为什么它在当今的 AI 数据中心中仍然被广泛采用;然而,它具有更高的硬件和维护成本以及有限的供应商选择。相比之下,在以太网上使用 RoCE v2 并不能实现与 InfiniBand 相同的性能,但它提供了一个开放的生态系统并降低了硬件和维护成本,促使逐渐转向以太网架构。
表 3.人工智能数据中心网络的关键技术比较:InfiniBand 与以太网
| 协议 | InfiniBand (RDMA) | 以太网 (RoCE v2) |
|---|---|---|
| 延迟 | <2 微秒 | <5 微秒 |
| 当前主流带宽/端口 | 800 Gbps | 800 Gbps |
| 无损机制 | 基于信用的流量控制 (CBFC) | 以太网流量控制 (802.3x)、PFC、ECN |
| 生态系统 | 封闭式 (NVIDIA) | 打开 |
| 硬件成本 | 高 (1x) | 低 (1/3) |
(来源:TrendForce集邦咨询)
目前,AI数据中心需求扩张,结合成本和生态系统的考虑,促使英伟达进入以太网市场。除了自己的 InfiniBand Switch Quantum 系列外,NVIDIA 目前还提供 Spectrum 系列下的以太网产品。
今年,Quantum-X800 可以在 144 个端口×提供 800 Gbps/端口,总计 115.2 Tbps;Spectrum-X800 可以在 64 个端口×提供 800 Gbps/端口,总计 51.2 Tbps。Quantum-X800 和 Spectrum-X800 的 CPO(共封装光学)版本预计分别于 2H25 和 2H26 推出。
虽然Spectrum的价格高于其他厂商的以太网交换机,但英伟达的优势在于与硬件和软件的深度集成,例如与BlueField-3 DPU和DOCA 2.0平台配对,实现高效的自适应路由。
交换机 IC 成本和 CPO 部署竞赛:以太网领先,InfiniBand 紧随其后
在以太网领域,博通仍然是以太网交换机的技术领导者。其 Tomahawk 系列 Switch IC 遵循“每两年使总带宽翻一番”的原则。到2025年,博通推出了全球总带宽最高的交换机IC战斧6,总带宽为102.4 Tbps,支持1.6 Tbps/端口×64个端口。此外,Tomahawk 6 还支持 ultra UEC 1.0 协议,支持多路径数据包喷涂、LLR 和 CBFC 等功能,进一步降低延迟和丢包风险。
博通在 CPO 技术方面也处于领先地位。自 2022 年以来,它发布了 CPO 版本的战斧 4 洪堡,随后于 2024 年发布了战斧 5 拜利,并在 2025 年继续发布战斧 6 戴维森,巩固了其在以太网硬件集成方面的领先地位。
表 4.横向扩展交换机 IC 比较:Broadcom、NVIDIA、Marvell、Cisco
| 供应商 | 博通 | 英伟达 | Marvell | 思科 | |||||
|---|---|---|---|---|---|---|---|---|---|
| 产品 | 战斧5 | 战斧6 | 战斧 6 (CPO) | 量子-3 | 量子 3 (CPO) | 光谱-4 | 频谱 4 (CPO) | 特拉林克斯 10 | 思科硅一号 G200 |
| 发行年份 | 2023 | 2025 | 2025 | 2024 | 2025 | 2024 | 2026 | 2024 | 2023 |
| 处理节点 | N5 | N3 | N3 | N4 | N4 | N4 | N4 | N5 | N5 |
| 单芯片带宽 | 51.2 Tbps | 102.4 Tbps | 102.4 Tbps | 28.8 Tbps | 28.8 Tbps | 51.2 Tbps | 102.4 Tbps | 51.2 Tbps | 51.2 Tbps |
(来源:TrendForce集邦咨询)
与今年首次推出 102.4 Tbps 战斧 6 的博通相比,英伟达预计仅在 102.4 年下半年发布 1600 Tbps Spectrum-X2026,使其技术落后博通大约一年。
关于CPO,英伟达也有望在2026年下半年推出102.4 Tbps Spectrum-X Photonics的CPO版本,旨在追赶博通。
表 5.NVIDIA 横向扩展网络开发路线图
| 时间 | 1H25 | 2小时25分 | 2小时26分 | 2小时27分 | 2028 |
|---|---|---|---|---|---|
| 平台 | 布莱克威尔 | 布莱克威尔超 | 鲁宾 | 鲁宾超 | 费曼 |
| InfiniBand 交换机 | |||||
| 开关 | 量子-2 | 量子-X800 | 量子-X1600 | 量子-X3200 | |
| 总带宽 | 51.2 Tbps | 115.2 Tbps | 230.4 Tbps | - | |
| 带宽/端口 | 400 Gbps | 800 Gbps | 1.6 Tbps | 3.2 Tbps | |
| 以太网交换机 | |||||
| 开关 | 光谱-X800 | 光谱-X1600 | 光谱-X3200 | ||
| 总带宽 | 51.2 Tbps | 102.4 Tbps | 204.8 Tbps | ||
| 带宽/端口 | 800 Gbps | 1.6 Tbps | 3.2 Tbps | ||
| 网络接口卡 (NIC) | |||||
| 超级网卡 | 连接X-8 | 连接X-9 | 连接X-10 | ||
| 带宽/端口 | 800 Gbps | 1.6 Tbps | 3.2 Tbps | ||
| 带宽/通道 | 200 Gbps | 200 Gbps | 400 Gbps | ||
| PCIe 规格 | PCIe 6.0(48 通道) | PCIe 7.0(48 通道) | PCIe 8.0 接口 | ||
(来源:TrendForce集邦咨询)
除了博通和英伟达阵营,其他厂商也加入了竞争。Marvell 于 10 年推出了总带宽为 51.2 Tbps 的 Teralynx 2023,思科还在 200 年发布了总带宽为 51.2 Tbps 的 Cisco Silicon One G2023 系列及其 CPO 原型。
电气通信达到极限,光集成成为焦点
传统的数据传输主要依赖铜基电气通信。然而,随着传输距离要求的增加,光纤光通信在横向扩展场景中逐渐显现出优势。与电通信相比,光通信具有低损耗、高带宽、抗电磁干扰、远距离传输等特点,如表6所示。
表 6.电气和光通信架构的比较
| 科技 | 电气通信 | 光通信 |
|---|---|---|
| 中等 | 铜 | 纤维 |
| 主传输速率 | 56–112 Gbps | 200 Gbps |
| 互连距离 | ≤100 m(受传输速度影响的距离) | MMF (SR):50–100 m SMF (DR/FR):500 m–2 km SMF (LR/ER/ZR):10–80+ km |
| 功耗 | 高频高 | 组件成本高,但可以通过封装集成降低总功率 |
| 稳定性 | 易受电磁干扰 | 不受电磁干扰 |
| 成本 | 成本最低,短距离连接简单 | 初始成本更高,但距离/密度可扩展性更好 |
来源:TrendForce集邦咨询
目前,光通信主要使用可插拔光收发器进行光电信号转换。传输速度达到每通道 200 Gbps,总带宽高达 1.6 Tbps(8 × 200 Gbps)。
随着速度的提高,功耗增加,电路板上的信号丢失变得更加明显。硅光子学 (SiPh) 技术是专门为解决这些问题而开发的。
硅光子学将小型化收发器组件集成到硅芯片中,形成光子集成电路(PIC),如下所示。PIC 进一步封装在芯片内,缩短了电气距离并用光路取代了它们。这种封装方法称为共封装光学器件 (CPO)。
图3

CPO 的更广泛概念如图 4 所示,包括多种封装形式,包括 OBO(板载光学器件)、CPO 和 OIO(光学 I/O)。
图4

图 4 表明,光学引擎 (OE) 的封装逐渐靠近主 ASIC。演化细节如下:
OBO:将 OE 封装在 PCB 上,这在今天不太常用。
窄CPO:将OE封装在基板上,这是目前主流的解决方案。与可插拔模块相比,功耗降低至 <0.5× (~5 pJ/位),延迟降低至 <0.1× (~10 ns)。
OIO:将OE封装在内插层上,代表未来的方向。与可插拔模块相比,功耗降低至 <0.1× (<1 pJ/bit),延迟降低至 <0.05× (~5 ns)。
然而,CPO仍面临热管理、键合、耦合等技术挑战。随着光通信接近极限,CPO 和硅光子学的突破将决定横向扩展网络的下一个战场。

以太网营地集结:UEC推广UEC 1.0标准
如前所述,InfiniBand 的极低延迟使其在生成式人工智能开发的早期阶段占据了重要的市场份额。然而,以太网作为主流的高性能网络生态系统之一,也旨在实现极低的延迟。2023 年 8 月,超级以太网联盟 (UEC) 成立,初始成员包括 AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta 和 Microsoft。
与 NVIDIA 主导的 InfiniBand 生态系统相比,UEC 强调开放标准和互作性,以避免依赖单一供应商。
2025 年 6 月,UEC 发布了 UEC 1.0,这不仅仅是基于 RoCE v2 的改进,而是对软件、传输、网络、链路和物理等所有层的全面重建。
图5

减少延迟的一个关键修改是在传输层增加了数据包传输子层 (PDS) 功能。其主要特点包括:
使用多路径传输,其中端点之间存在多个等距且速度相等的路径(轨道/车道)。
NIC 使用熵值将数据包分布到所有通道,从而允许并行传输以实现更大的带宽。
这种多层结构可以加速网络恢复,例如快速替换丢失的数据包以确保流量流畅,近似 InfiniBand 的自适应路由。
另一方面,为了降低数据包丢失的风险,UEC 1.0 引入了两个主要变化:
链路层可选的链路层重试 (LLR) 功能,允许本地链路在数据包丢失时快速请求重传,从而减少对优先级流控制 (PFC) 机制的依赖。
链路层的可选基于信用的流控制 (CBFC) 功能,发送方必须在传输数据之前从接收方获取信用。接收方在处理和释放缓冲区空间后返回新的积分,实现无丢包风险的流量控制,类似于 InfiniBand 的 CBFC。
中国的横向扩展:协调标准和自主研发技术
中国的人工智能基础设施横向扩展架构正在沿着自主和国际兼容的原则发展。在坚持国际以太网标准的同时,国内各大企业都在积极投入专有架构,逐步形成具有本土特色的横向扩展体系。
阿里巴巴、百度、华为、腾讯等科技大公司都选择加入UEC,共同推进UEC标准的发展。除了参与标准化,中国企业还在自主研发专有的横向扩展架构,一般以低延迟和零丢包为目标,直接对标InfiniBand。
表7.中国横向扩展和UEC架构对比
| 协议 | UEC 1.0 | GSE 2.0(中国移动) | HPN 7.0(阿里云) | UB 1.0(华为) |
|---|---|---|---|---|
| 延迟 | <2us | <2us | <2us | <2us |
| 主带宽 | 800 Gbps | 800 Gbps | 400 Gbps | 400 Gbps |
| 丢包机制 | 链路层重试 (LLR)、基于信用的流控制 (CBFC) | DGSQ 流量控制 | Solar-RDMA,双平面流量分配 | 链路层重试 (LLR) |
| 生态系统 | 打开 | 打开 | 打开 | 闭 |
来源:TrendForce集邦咨询
这些专有技术架构的具体细节如下:
中国移动:通用调度以太网(GSE)中国
移动于 2023 年 5 月在 UEC 架构之前引入了 GSE。它分为两个阶段:GSE 1.0通过端口级负载均衡和端点网络拥塞感知,优化现有RoCE网络,提高数据传输稳定性和整体性能,同时减少计算浪费。
GSE 2.0 是一个完整的网络重建,重新建立了从控制层、传输层到计算层的协议。它实现了多路径喷涂和流量控制机制 (DGSQ),以更有效地分配流量,进一步减少延迟和数据包丢失,以满足未来 AI 计算中心的高性能需求。
阿里云:高性能网络(HPN)
阿里云的 HPN 7.0 架构采用“双上行 + 多通道 + 双平面”设计。双上行提高网络性能,多通道实现并行数据包传输,双平面增强稳定性。下一代 HPN 8.0 计划采用完全专有的硬件,例如实现 800 Gbps 带宽的 102.4 Tbps 交换机 IC,对标国际解决方案。华为:UB-Mesh互联架构
华为在昇腾NPU平台上部署了专有的UB-Mesh架构,采用多维nD-Full Mesh拓扑结构。它支持横向纵向扩展和垂直扩展。扩展到三维以上,达到Scale-Out级别,能够支持超大型AI训练集群。
中国专有的横向扩展架构不断发展,有望为本土企业提供更大的增长机会。在中兴旭创、光讯科技等企业的参与下,国产光模块和硅光子技术有望形成完整的产业链,推动AI基础设施网络化独具中国特色的路径。
下一代人工智能数据中心:技术转型和机遇
长期以来,英伟达的InfiniBand凭借其超低延迟(低于2μs)和零丢包能力,在AI数据中心的横向扩展市场占据主导地位。然而,随着 2025 年 6 月 UEC 1.0 标准的发布,以太网网络正在努力与 InfiniBand 的低延迟和高稳定性相匹配,逐渐重新获得市场竞争力。同时,博通始终如一的开发周期,每两年将交换机 IC 带宽翻一番,继续推进以太网硬件能力。
随着传输速率达到1.6 Tbps或更高,传统可插拔光模块的功耗和延迟成为瓶颈,使得共封装光学(CPO)技术在高性能网络中日益成为标准。CPO 将光收发器直接集成到开关芯片基板上,显着降低功耗和延迟。博通在 CPO 技术方面处于领先地位,自 2022 年以来推出了多代基于 CPO 的交换机。英伟达还计划在2025年下半年发布InfiniBand CPO产品,预示着CPO将逐渐成为网络架构的主流。
随着以太网和CPO技术的成熟,AI数据中心网络正在全面向高速光通信迈进,为光收发模块和上游供应链创造新的增长机会,包括硅光子芯片、激光源和光纤模块。
在横向扩展架构中,NVIDIA 有望继续引领传统的 InfiniBand 市场。在以太网领域,博通预计将通过其领先的高带宽交换机 IC、CPO 技术和 UEC 标准的实施保持主要市场份额。
2025 年 8 月,NVIDIA 和 Broadcom 同时推出了 Scale-Across 概念,旨在将连接扩展到多个数据中心。这种方法将实现更大规模的 GPU 互连和更远距离的传输,推动高性能网络和数据中心架构的新范式。












评论