英伟达的Vera-Rubin平台在发布前六个月取代现有的AI铁牌

如果你恰好在恰当的时间购买最新的铁,制定年度AI系统改进节奏是一件好事。但英伟达机架级AI系统及其大规模扩展网络的快速提升也意味着,在任何时刻,一定一部分客户都会感到后悔,后悔当初没等到。
我们意识到这可以说是发达世界的问题,当你拿到任何GPU或XPU容量时,这并不值得抱怨。
但即便如此,当全世界关注英伟达联合创始人兼首席执行官黄仁森在拉斯维加斯2026年消费电子展上的主题演讲时,许多高管看到未来“Vera”Arm服务器CPU和“Rubin”GPU加速器的进给和速度,以及可扩展的NVLink内存结构和可扩展的Spectrum以太网互连的规格,肯定会想“早该等一等”与新的网卡和DPU一起推出,打造出大幅改进的机架级系统,用于咀嚼或输出令牌。
具体来说,英伟达高层表示,Vera-Rubin NVL72机架级系统,顾名思义拥有72个GPU插槽,同样有36个CPU插槽,以及将它们连接起来的NVSwitch结构,能为专家(MoE)AI模型混合时,每个令牌的推理成本降低10倍,GPU数量减少4倍(但可能不会减少4倍成本,请注意不要跳到错误结论)来训练这些模型,与上一代Grace-Blackwell NVL72系统进行比较。(这是将GB200 NVL72系统与我们推测将被称为VR200 NVL72系统的对比。)
比Blackwell的过渡更平滑
英伟达于2016年4月推出了首款自制服务器,基于其“Pascal” P100 GPU加速器和NVLink端口混合立方体网格,将系统中的八块GPU绑定在一起。以现代标准来看,这是一台相当简单的机器,值得注意的是,第一台机器就交给了OpenAI的首席执行官Sam Altman。
两年后,基于“Volta” V100 GPU 和一个叫 NVSwitch 的奇特小东西,推出了 DGX-2 平台,这是 Nvidia Research 的一个研究项目。通过DGX-2,英伟达首次体验了复杂的系统组件开发与集成,英伟达没有让别人按规格构建,而是自行制造GPU板、交换板和两者之间的平面互连,以保持质量控制。“Ampere” A100和“Hopper” H100 GPU设计相似,但经过提升以提供更多浮点性能和带宽以支持,但随着2024年3月发布的“Blackwell”GB200 NVL72设计,英伟达实现机架规模,将72个GPU插槽、36个CPU插槽和18个NVSwitch托盘塞入“节点”,打造了一个复杂的共享内存系统, 炎热,制造难度高,需求极高且供应紧张。
最初的Blackwell机架级机器存在问题,这迫使GPU和机架在多个方面重新设计,这当然意味着发货延迟——从2024年底到2025年初,数量合理。但是,当你在构建世界上最复杂的服务器节点,推动集成和散热的极限时,无论所有工程师多么谨慎和深思熟虑,你都必须预料到偶尔会出现问题。

这次,使用Vera-Rubin VR200 NVL72机器,一切都在正轨上。在黄晓明主旨演讲前与记者和分析师的预告会上,高性能计算与人工智能工厂解决方案高级总监迪昂·哈里斯表示,Vera-Rubin NVL72平台核心的六颗芯片均已从台湾积体电路晶圆厂返回,正在调配并发送给关键合作伙伴,预计将在2026年下半年开始加快生产。
我们强烈怀疑英伟达会公布更多关于VR200 NVL72平台的细节——这些平台是GPU插槽数而非芯片组,因此这台机器也是英伟达去年在2026年3月圣何塞GPU技术大会上对VR200 NVL144系统的称呼。但现在,我们先分享CES上发布的这些机器的介绍。(或者说,是在CES,因为我们家里不在展会现场,因为家里有些医疗问题。)
也许Harris在预简报中展示的最重要的图表就是这张,它说明了为什么Vera-Rubin系统的设计重点是提升HBM堆叠内存带宽,这样这些昂贵的Rubin显卡就能比Hopper和Blackwell世代更好地供电。(就像你用的是你拥有的军队,而不是你希望拥有的那支军队,每个IT供应商都会带着他们能集成、可靠性最高、成本最低的组件进入市场。)请看:

但在专家混合时代,模型必须创建和分析更多代币以得出更好的答案,而如果你想及时完成这些工作,处理所有专家之间交流需要大量带宽。
因此,我们认为,在新 Vera-Rubin 机器中最重要的指标是,Rubin GPU 中八组 HBM4 内存——大概是 R200,但 Nvidia 尚未公布其名称——的总内存带宽为 22 TB/秒,是 Blackwell GPU 所用八个 HBM3E 堆栈的 8 TB/秒的 2.75 倍。虽然略高于预期,但288GB的容量是Blackwell B200显卡192GB的1.5倍,完全符合预期。(如果HBM供应放宽,英伟达未来可能会创造更丰厚的记忆,但我们强烈怀疑这会在2027年的Rubin Ultra显卡上实现,而非2026年的Rubin。)
以下是Rubin显卡的基本规格:

你会注意到,这款两芯片组Rubin GPU插槽的NVFP4推理性能为50拍浮点运算,是Blackwell B200显卡性能的5倍,但训练时,NVFP4浮点运算精度仅为35拍浮点运算,仅为B200的10拍浮点运算的3.5倍。后续的B300经过调整,AI推断性能提升至15千万亿次运算,比B200提升了50%。Nvidia从未真正解释过这是怎么发生的。
但对于Rubin GPU,英伟达超大规模与高性能计算总经理Ian Buck说,有一个解释,这叫做自适应压缩,这是Rubin GPU重新设计的张量核心的一部分,也是这些张量核心实现的下一代Transformer Engine的一部分。
“自适应压缩基本上是一种更智能的稀疏化技术,能够自适应应用,并且我们知道它不会影响准确性,”巴克告诉《下一个平台》。
虽然英伟达没有明确说明,但我们强烈怀疑这是Balckwell B300与早期B200显卡之间的关键区别之一。(这并非英伟达GPU首次将未来技术引入。)否则如何解释B300推理性能提升50%的原因?在一块采用4纳米工艺实现的芯片上,时钟速度肯定没提升多少。
我们会进一步探讨Rubin的GPU芯片,但Rubin复合体拥有3360亿个晶体管,我们认为它采用了台积电N3的3纳米工艺(虽然也可能跳到2纳米的N2工艺),而B200的晶体管有2080亿个。这意味着晶体管数量增加了62%,在没有自适应压缩提升的情况下实现了3.5倍的性能提升——我们想知道这是如何实现的。
在CPU方面,英伟达今年晚些时候推出的AI及有时的高性能计算平台包括基于Vera Arm的CPU和英伟达自家开发的“奥林巴斯”核心。

根据我们在CES上的第一印象,Vera的CPU比Grace好得多。Vera芯片拥有88个核心,每个核心两线程,Nvidia称之为“空间多线程”,但尚未解释。
Vera 核心每个核心有 2 MB L2 缓存(是 Grace 及其非定制 Arm Neoverse“Demeter” V2 核心的 2 倍),核心间共享 162 MB L3 缓存(比 Grace CPU 的 114 MB L3 缓存增加了 42%)。Vera芯片拥有1.5TB LPDDR5X内存,是Grace的480 GB LPDDR5X内存的3.2倍。每个Vera核心配备六个128位SVE2矢量引擎,支持FP64至FP8格式,这与Grace中支持FP64至FP16格式的四个128位SVE2单元相比,非常有趣。Vera 的共享内存带宽为 1.8 TB/秒,是 Grace 的两倍,这使得它能够非常快速地与与 MGX 系统板上的两块 Rubin GPU 共享数据,MGX 系统板是 Vera-Rubin VR200 NVL72 系统的关键组件。
将它们组合起来,你就得到了英伟达所称的Vera-Rubin超级芯片和我们所说的系统板:

把其中两个放进一个MGX服务器滑板里,再把十八个这样的滑板放进一个“Oberon”机架,里面有36个NVSwitch 4交换机(英伟达现在称之为NVLink 6交换机以避免让人混淆),你就拥有了一个机架级系统,具体如下:

考虑到Nvidia还没开始销售这款Vera-Rubin巨兽,我们根本不知道它的售价。但鉴于机架中的所有设备制造成本都高于处理器本身,且显然在同一空间内提供了更强的动力和更高的每瓦性能,我们认为英伟达将能够为Vera-Rubin系统收取更高的价格。具体金额将由市场决定——预计将会有英伟达著名联合创始人兼首席执行官的深度参与。
如果 GB200 NVL72 价格约为 335 万美元,正如我们两年前估算的那样,那么推理性能提升 5 倍的 VR200 NVL72 预计价格将达到 1680 万美元。啊,但每个代币的成本必须大幅降低,英伟达表示推断MoE的成本将降10倍。所以现在你只剩下168万美元了。我们绝不相信英伟达会只收取168万美元的价格,因此我们不知道上述10倍成本的降低来自何处。(我们认为这可能是测量的MoE推断性能,而非上图所示的理论峰值表现。)我们更容易相信,Nvidia可能会收取比GB200 NVL72高2.5倍的费用,但VR200 NVL72的原始NVFP4性能提升5倍,约840万美元,但原始推理性能成本降低了50%。很多事情取决于英伟达能挤出多少利润。考虑到英伟达最初与布莱克韦尔的麻烦,以及向鲁宾过渡可能的顺利,可能还有空间将价格降得比预期低,以抵御竞争对手。
部分竞争来自英伟达对Vera-Rubin系统的灯塔客户,公司表示包括亚马逊网络服务、谷歌云、Microsoft Azure、甲骨云基础设施,以及CoreWeave、Lambda、Nebius和Nscale等小型企业。前三个客户正在自行开发加速器,谷歌很可能以与Nvidia硬件层面相同甚至更低的代币成本实现,并构建单一内存域可扩展至9,216个TPU的系统。这个规模非常重要,也是Nvidia必须解决的真正工程难题。我们坚信它也能做到这一点。








评论