新闻中心

EEPW首页 > EDA/PCB > 设计应用 > 英伟达的新Rubin架构在网络领域蓬勃发展

英伟达的新Rubin架构在网络领域蓬勃发展

作者: 时间:2026-01-16 来源:IEEE 收藏

在拉斯维加斯举办的国际消费电子展()上,意外发布全新 架构。这款计划于年内正式推向市场的新平台,官方宣称相较前代 Blackwell 架构,其推理成本可降低 90%,训练特定模型所需的 数量可减少 75%。

通常而言,硬件性能的提升往往聚焦于 本身。诚然,新款 Rubin 在面向大语言模型等基于变换器(Transformer)的推理负载时,4 比特精度运算性能可达 50 千万亿次浮点运算每秒(petaFLOPS),远超 Blackwell 架构的 10 petaFLOPS。

但如果仅将目光放在 GPU 上,便会忽略该架构的核心突破点。基于 架构的计算设备,共集成 6 款全新芯片:Vera 中央处理器()、Rubin 图形处理器(GPU),以及 4 款功能各异的网络芯片。网络事业部高级副总裁 Gilad Shainer 表示,该架构的性能优势,必须依托所有组件的协同运作才能实现。

“同款硬件,不同的连接方式,所能释放的性能天差地别。这正是我们将其称为深度协同设计的原因。”

功能升级的 “网络内计算” 技术

人工智能的训练与推理负载,均需依托大规模 GPU 集群的并行运算。“两年前,推理任务大多还在单块 GPU、单台设备、单个服务器上运行,”Shainer 指出,“而如今,推理任务正朝着分布式方向演进,且其分布式部署范围已不再局限于单个机柜,而是拓展至跨机柜的规模。”

为了支撑这类大规模分布式任务,需要让尽可能多的 GPU 像单一计算单元一样高效协作,这正是纵向扩展网络(scale-up network)的设计目标 —— 该网络负责实现单个机柜内的 GPU 互联。英伟达采用自研 NVLink 网络芯片来搭建这一互联架构,新推出的 NVLink6 交换机,带宽相较上一代 NVLink5 交换机提升一倍:GPU 间互联带宽达到 3600GB/s,远超 NVLink5 的 1800GB/s。

除带宽翻倍外,纵向扩展系列芯片的串并转换器(SerDes)数量也实现翻倍 —— 这类器件能够减少数据传输所需的物理线路数量;同时,芯片支持在网络层完成的运算任务范围也得到大幅拓展。

“纵向扩展网络的本质,并非单纯的网络架构,而是一套计算基础设施。部分运算任务可直接在网络层面完成…… 具体来说,就是在交换机上执行。”Shainer 补充道。

将部分运算任务从 GPU 转移至网络层执行,主要基于两方面的考量。

第一,此举可实现部分任务的 “单次执行、全局复用”,避免所有 GPU 重复执行相同操作。一个典型案例是人工智能训练过程中的全归约(all-reduce)操作:训练时,每个 GPU 都会基于自身处理的数据批次计算梯度值;为确保模型训练的准确性,所有 GPU 都需要获取所有批次梯度值的平均值。如果让每个 GPU 都向其他所有 GPU 发送自身计算的梯度值,再各自计算平均值,会产生巨大的算力与时间消耗;而将这一求平均操作交由网络层统一执行,能够显著节省计算时间与功耗。

第二,通过在数据传输过程中同步完成运算任务,可有效隐藏 GPU 间的数据传输延迟。Shainer 用一个生动的比喻解释这一原理:“假设一家披萨店想要缩短订单配送时间,仅靠增加烤箱或员工数量是行不通的 —— 这些举措只能提高披萨的总产量,却无法缩短单个订单的配送耗时。但如果换一种思路,把烤箱装到配送车上,让披萨在配送途中完成烘烤,就能真正节省时间。我们所做的,正是类似的事情。”

实际上,“网络内计算” 并非英伟达在该架构中首次应用的技术,这项技术早在 2016 年左右就已投入实用。但 Shainer 表示,此次架构升级拓展了网络层支持的运算类型,能够适配更多样化的负载场景与数值精度格式。

横向扩展与跨域扩展网络架构

架构所包含的其余网络芯片,则共同构成了横向扩展网络(scale-out network),负责实现数据中心内部不同机柜之间的互联。

这类芯片包含三款核心产品:

  • ConnectX-9 网络接口卡:承担数据中心内机柜间的数据传输接口功能;

  • BlueField-4 数据处理单元(DPU):每颗 BlueField-4 会与两颗 Vera 及一块 ConnectX-9 网卡搭配使用,专门负责卸载网络、存储及安全相关任务,释放 GPU 算力;

  • Spectrum-6 以太网交换机:采用共封装光学器件(co-packaged optics)技术实现机柜间数据传输,其带宽相较前代产品翻倍,同时最大限度降低了数据分组传输时延抖动(jitter)—— 即数据分组到达时间的波动幅度。

“横向扩展基础设施的核心要求,是确保分布在不同机柜的 GPU 能够高效通信,从而支撑分布式计算负载。这就需要构建一个无抖动的网络环境。”Shainer 强调。时延抖动会引发一个严重问题:当不同机柜负责处理同一计算任务的不同部分时,各部分计算结果的返回时间会存在差异,必然有一个机柜的计算速度慢于其他机柜,而其他机柜中价值高昂的计算设备,只能处于闲置状态等待最慢的结果返回。“时延抖动,就意味着真金白银的损失。”

目前,英伟达推出的这一系列新芯片,均未专门针对跨域扩展(scale-across)场景 —— 即数据中心之间的互联进行设计。但 Shainer 表示,这将是该技术的下一个发展方向。“技术的发展不会止步于此,因为我们看到,部分负载对数据中心内 GPU 数量的需求正在持续攀升。” 他指出,“对于一些超大规模负载而言,10 万块 GPU 已经无法满足需求,因此,我们需要将多个数据中心连接起来,构建跨数据中心的算力集群。”


评论


相关推荐

技术专区

关闭