英伟达的新Rubin架构在网络领域蓬勃发展

作者：时间：2026-01-16 来源：IEEE

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

英伟达在拉斯维加斯举办的国际消费电子展（CES 2026）上，意外发布全新 Vera Rubin 架构。这款计划于年内正式推向市场的新平台，官方宣称相较英伟达前代 Blackwell 架构，其推理成本可降低 90%，训练特定模型所需的 GPU 数量可减少 75%。

通常而言，硬件性能的提升往往聚焦于 GPU 本身。诚然，新款 Rubin GPU 在面向大语言模型等基于变换器（Transformer）的推理负载时，4 比特精度运算性能可达 50 千万亿次浮点运算每秒（petaFLOPS），远超 Blackwell 架构的 10 petaFLOPS。

但如果仅将目光放在 GPU 上，便会忽略该架构的核心突破点。基于 Vera Rubin 架构的计算设备，共集成 6 款全新芯片：Vera 中央处理器（CPU）、Rubin 图形处理器（GPU），以及 4 款功能各异的网络芯片。英伟达网络事业部高级副总裁 Gilad Shainer 表示，该架构的性能优势，必须依托所有组件的协同运作才能实现。

“同款硬件，不同的连接方式，所能释放的性能天差地别。这正是我们将其称为深度协同设计的原因。”

功能升级的 “网络内计算” 技术

人工智能的训练与推理负载，均需依托大规模 GPU 集群的并行运算。“两年前，推理任务大多还在单块 GPU、单台设备、单个服务器上运行，”Shainer 指出，“而如今，推理任务正朝着分布式方向演进，且其分布式部署范围已不再局限于单个机柜，而是拓展至跨机柜的规模。”

为了支撑这类大规模分布式任务，需要让尽可能多的 GPU 像单一计算单元一样高效协作，这正是纵向扩展网络（scale-up network）的设计目标 —— 该网络负责实现单个机柜内的 GPU 互联。英伟达采用自研 NVLink 网络芯片来搭建这一互联架构，新推出的 NVLink6 交换机，带宽相较上一代 NVLink5 交换机提升一倍：GPU 间互联带宽达到 3600GB/s，远超 NVLink5 的 1800GB/s。

除带宽翻倍外，纵向扩展系列芯片的串并转换器（SerDes）数量也实现翻倍 —— 这类器件能够减少数据传输所需的物理线路数量；同时，芯片支持在网络层完成的运算任务范围也得到大幅拓展。

“纵向扩展网络的本质，并非单纯的网络架构，而是一套计算基础设施。部分运算任务可直接在网络层面完成…… 具体来说，就是在交换机上执行。”Shainer 补充道。

将部分运算任务从 GPU 转移至网络层执行，主要基于两方面的考量。

第一，此举可实现部分任务的 “单次执行、全局复用”，避免所有 GPU 重复执行相同操作。一个典型案例是人工智能训练过程中的全归约（all-reduce）操作：训练时，每个 GPU 都会基于自身处理的数据批次计算梯度值；为确保模型训练的准确性，所有 GPU 都需要获取所有批次梯度值的平均值。如果让每个 GPU 都向其他所有 GPU 发送自身计算的梯度值，再各自计算平均值，会产生巨大的算力与时间消耗；而将这一求平均操作交由网络层统一执行，能够显著节省计算时间与功耗。

第二，通过在数据传输过程中同步完成运算任务，可有效隐藏 GPU 间的数据传输延迟。Shainer 用一个生动的比喻解释这一原理：“假设一家披萨店想要缩短订单配送时间，仅靠增加烤箱或员工数量是行不通的 —— 这些举措只能提高披萨的总产量，却无法缩短单个订单的配送耗时。但如果换一种思路，把烤箱装到配送车上，让披萨在配送途中完成烘烤，就能真正节省时间。我们所做的，正是类似的事情。”

实际上，“网络内计算” 并非英伟达在该架构中首次应用的技术，这项技术早在 2016 年左右就已投入实用。但 Shainer 表示，此次架构升级拓展了网络层支持的运算类型，能够适配更多样化的负载场景与数值精度格式。

横向扩展与跨域扩展网络架构

Vera Rubin 架构所包含的其余网络芯片，则共同构成了横向扩展网络（scale-out network），负责实现数据中心内部不同机柜之间的互联。

这类芯片包含三款核心产品：

ConnectX-9 网络接口卡：承担数据中心内机柜间的数据传输接口功能；
BlueField-4 数据处理单元（DPU）：每颗 BlueField-4 会与两颗 Vera CPU 及一块 ConnectX-9 网卡搭配使用，专门负责卸载网络、存储及安全相关任务，释放 GPU 算力；
Spectrum-6 以太网交换机：采用共封装光学器件（co-packaged optics）技术实现机柜间数据传输，其带宽相较前代产品翻倍，同时最大限度降低了数据分组传输时延抖动（jitter）—— 即数据分组到达时间的波动幅度。

“横向扩展基础设施的核心要求，是确保分布在不同机柜的 GPU 能够高效通信，从而支撑分布式计算负载。这就需要构建一个无抖动的网络环境。”Shainer 强调。时延抖动会引发一个严重问题：当不同机柜负责处理同一计算任务的不同部分时，各部分计算结果的返回时间会存在差异，必然有一个机柜的计算速度慢于其他机柜，而其他机柜中价值高昂的计算设备，只能处于闲置状态等待最慢的结果返回。“时延抖动，就意味着真金白银的损失。”

目前，英伟达推出的这一系列新芯片，均未专门针对跨域扩展（scale-across）场景 —— 即数据中心之间的互联进行设计。但 Shainer 表示，这将是该技术的下一个发展方向。“技术的发展不会止步于此，因为我们看到，部分负载对数据中心内 GPU 数量的需求正在持续攀升。” 他指出，“对于一些超大规模负载而言，10 万块 GPU 已经无法满足需求，因此，我们需要将多个数据中心连接起来，构建跨数据中心的算力集群。”

新闻中心

英伟达的新Rubin架构在网络领域蓬勃发展

评论

相关推荐

技术专区