存储还要继续疯!英伟达ICMSP让闪存涨停,黄仁勋要一统存储处理器
英伟达推出全新推理上下文(Inference Context)内存存储平台(ICMSP),通过将推理上下文卸载(Offload)至NVMe SSD的流程标准化,解决KV缓存容量日益紧张的问题。该平台于 2026 年国际消费电子展(CES 2026)正式发布,致力于将GPU的KV缓存(Key-Value Cache)扩展至基于 NVMe 的存储设备,并获得英伟达 NVMe 存储合作伙伴的支持。
此消息一出,引爆的是本就涨到高不可攀的存储厂商股价,多家存储厂商和闪存控制器厂商股价直接涨停,闪存极有可能步DRAM后尘成为AI基建带动下第二波紧俏存储器,存储价格特别是闪存价格在2026年可能成为存储产品整体价格继续飙涨的第二轮推动力。从某个角度考虑,ICMSP的推出,让GPU芯片可以降低对大容量HBM产品的严重依赖,同时也让AMD同步发布的Helios机架平台变得有些“过时”,因为英伟达已经迈向了存算结合的新阶段。
不过相比这些,黄仁勋在解答分析师问题时更是直言“我们现在是全球最大的网络公司。我预计我们还将成为全球最大的存储处理器公司”,通过不断收购存储技术,英伟达致力于在AI算力体系架构中,拥有更多的话语权。从这点来看,ICMSP将成为英伟达在AI走向千行百业的工程化过程中主导的技术之一。
认识一下ICMSP
在大型语言模型推理过程中,KV缓存用于存储上下文数据 —— 即模型处理输入时,表征令牌间关系的键(keys)和值(values)。随着推理推进,新令牌参数不断生成,上下文数据量持续增长,往往会超出 GPU 的可用内存。当早期缓存条目被淘汰后又需重新调用时,必须重新计算,这会增加延迟。智能体 AI(Agentic AI)和长上下文工作负载进一步加剧了这一问题,因为它们需要保留更多上下文数据。而 ICMSP 通过将 NVMe 存储上的 KV 缓存纳入上下文内存地址空间,并支持跨推理任务持久化存储,有效缓解了这一困境。
英伟达创始人兼CEO黄仁勋表示:“人工智能正在彻底变革整个计算架构 —— 如今,这场变革已延伸至存储领域。人工智能不再局限于一次性交互的聊天机器人,而是能理解物理世界、进行长周期推理、立足事实、借助工具完成实际工作,并具备短期和长期记忆的智能协作伙伴。借助BlueField-4,英伟达与软硬件合作伙伴正为人工智能的下一个前沿领域重塑存储架构。” 他在CES演讲中提到,通过BlueField-4,机柜中可直接部署KV缓存上下文内存存储。
随着 AI 模型规模扩展至万亿参数级别,且支持多步骤推理,其生成的上下文数据量极为庞大,同时运行的此类模型数量也在不断增加。KV 缓存软件(即 ICMSP)需适配GPU、GPU 服务器及 GPU 机柜集群,这些设备可能同时处理多种不同的推理工作负载。每个模型 / 智能体工作负载的参数集都需妥善管理,并能精准对接运行在特定 GPU 上的目标AI模型或智能体 —— 且这种对应关系可能随任务调度动态变化。这意味着需要专门的 KV 缓存上下文元数据管理机制。
基于NVMe的KV缓存存储需实现跨层级兼容,涵盖 GPU、GPU 服务器、GPU 机柜乃至多机柜集群。英伟达表示,ICMSP 不仅提升了 KV 缓存容量,还加速了机柜级 AI 系统集群间的上下文共享。多轮交互 AI 智能体的持久化上下文特性,提高了响应速度,提升了 AI 工厂的吞吐量,并支持长上下文、多智能体推理的高效扩展。

图1 基于 NVMe 的 KV 缓存存储需实现跨层级兼容,覆盖GPU、GPU 服务器、GPU机柜乃至GPU机柜集群
ICMSP 依赖Rubin GPU集群级缓存容量,以及英伟达即将推出的BlueField-4数据处理器(DPU)—— 该处理器集成Grace CPU,吞吐量高达 800 Gbps。BlueField-4 将提供硬件加速的缓存部署管理功能,消除元数据开销,减少数据迁移,并确保GPU节点的安全隔离访问。英伟达的软件产品(包括DOCA框架、Dynamo KV缓存卸载引擎及其内置的 NIXL(英伟达推理传输库)软件实现了 AI 节点间 KV 缓存的智能加速共享。
存储架构必须重构,在这个过程中,上下文成为新瓶颈,主要体现在模型规模持续扩大、上下文(Context)长度不断增加、多轮对话导致上下文(Context)累积以及并发用户与会话数量增多等方面。

图2 黄仁勋在 CES 2026 展示的上下文瓶颈幻灯片
Dynamo支持跨内存和存储层级的协同工作,覆盖GPU的高带宽内存(HBM)、GPU 服务器 CPU 的动态随机存取存储器(DRAM)、直连 NVMe SSD 及网络附加存储。此外,还需搭配英伟达Spectrum-X以太网,为基于RDMA的AI原生KV缓存访问提供高性能网络架构。英伟达称,ICMSP的能效将比传统存储提升5倍,令牌每秒处理量最高可提升5倍。

图3 黄仁勋在 CES 2026 展示的推理上下文内存存储平台幻灯片
行业反馈
鉴于英伟达在AI算力架构方面拥有绝对的话语权,ICMSP的推出必定会得到一众合作伙伴的鼎力支持,以免错失商机。英伟达列出了众多将通过BlueField-4支持ICMSP的存储合作伙伴,BlueField-4 将于 2026 年下半年正式上市。首批合作伙伴包括 AIC、Cloudian、DDN、戴尔科技、HPE、日立数据系统、IBM、Nutanix、Pure Storage、超微(Supermicro)、VAST Data 和 WEKA。预计 NetApp、联想(Lenovo)和 Hammerspace 也将后续加入。
将KV缓存卸载或扩展至NVMe SSD的架构理念,其实已有厂商率先实践 —— 例如 Hammerspace的零级存储技术(Tier zero tech)、VAST Data的开源软件VAST Undivided Attention(VUA),以及WEKA的增强内存网格(Augmented Memory Grid)。戴尔也通过在PowerScale、ObjectScale和闪电计划(Project Lightning,私人预览版)存储产品中集成LMCache和NIXL等技术,实现了KV缓存卸载功能。
这些均为基于BlueField-3的解决方案。如今,英伟达旨在为所有存储合作伙伴提供标准化的KV缓存内存扩展框架。戴尔、IBM、VAST Data和WEKA已明确表示将支持 ICMSP。WEKA在题为《上下文时代已然来临》的博客中,详细阐述了支持该平台的实施方案及核心原因,指出ICMSP是 “一类新型 AI 原生基础设施,将推理上下文视为一级平台资源。这一架构方向与WEKA的增强内存网格高度契合,后者通过扩展 GPU 内存,实现了大规模、无限量、高速、高效且可复用的上下文存储。”
WEKA产品营销副总裁Jim Sherhart表示:“为上下文数据套用为长期存储数据设计的重量级持久性、复制和元数据服务,会产生不必要的开销 —— 导致延迟增加、功耗上升,同时降低推理经济性。”“推理上下文固然需要适当的管控,但它的特性与企业级数据不同,不应强行套用企业级存储语义。传统协议和数据服务带来的开销(如元数据路径、小 I/O 放大、默认的持久性 / 复制机制、在错误层级施加的多租户控制),可能将‘高速上下文’降级为‘低速存储’。当上下文对性能至关重要且需频繁复用的情况下,这种开销会直接体现为尾部延迟增加、吞吐量下降和效率降低。”
VAST Data 表示,其存储/AI操作系统将运行在BlueField-4处理器上,“打破传统存储层级界限,提供机柜级共享KV缓存,为长上下文、多轮对话和多智能体推理提供确定性访问性能。”VAST 全球技术合作副总裁John Mao称:“推理正逐渐成为一个内存系统,而非单纯的计算任务。未来的赢家不会是拥有最多原始计算资源的集群,而是那些能以线速迁移、共享和管控上下文的集群。连续性已成为新的性能前沿。如果上下文无法按需获取,GPU 将陷入闲置,整个系统的经济性将彻底崩塌。通过在英伟达 BlueField-4 上运行 VAST AI 操作系统,我们正将上下文转化为共享基础设施 —— 默认高速、按需提供策略驱动管控,并能随着智能体 AI 的规模扩展保持性能稳定性。”
关于ICSMP,黄仁勋在CES 2026后答分析师会议上做了更多详细的说明,其中最惊人的是黄仁勋表态希望未来英伟达成为最大的存储处理器公司,从而掌握更大数据话语权。
Aaron Rakers- 富国银行证券有限责任公司研究部:目前供应链面临着诸多动态变化,比如 DRAM 价格、供应可用性等问题。我想了解你们对供应链的看法。
黄仁勋(Jen-Hsun Huang:我们的供应链涵盖了上游和下游。我们的优势在于,由于我们的规模已经非常庞大,而且在如此大的规模下仍然保持快速增长,我们很早就开始为合作伙伴准备应对这种大规模的产能扩张。
过去两年,大家一直在和我讨论供应链问题 —— 这是因为我们的供应链规模巨大,而且增长速度惊人。每个季度,我们的增长规模都相当于一家完整的公司,这还只是增量部分。我们每季度都在新增一家大型上市公司的规模。因此,我们在 MGX(机架级产品)方面所做的所有供应链优化工作 ——
我们之所以如此注重组件标准化、避免生态系统和供应链资源浪费、并为合作伙伴提供大量投资(包括预付款支持),就是为了帮助他们扩大产能。我们谈论的不是数百亿美元,而是数千亿美元的投入,以帮助供应链做好准备。因此,我认为我们目前的供应链状况非常良好,这得益于我们与合作伙伴长期稳定的合作关系。而且,大家应该知道,我们是全球唯一一家直接采购 DRAM 的芯片公司。
仔细想想,我们是全球唯一一家直接采购DRAM的芯片公司。有人问我们为什么要这么做?因为事实证明,将DRAM整合为CoWoS(晶圆级系统集成)并打造超级计算机的难度极大。而建立这样的供应链体系,给了我们巨大的竞争优势。
现在市场环境虽然严峻,但我们很幸运拥有这样的技术能力。说到功耗,看看我们的上游合作伙伴 —— 系统制造商、内存供应商、多层陶瓷电容器(MLCC)供应商、印刷电路板(PCB)供应商等,我们与他们都保持着紧密的合作。
James Schneider- 高盛集团研究部:我想了解一下你们今天宣布的上下文(Context)内存存储控制技术。它在各类应用场景中的重要性如何?您是否认为它会成为某些特定客户问题的性能瓶颈?我们是否可以期待你们在这个方向上继续创新,就像你们过去在网络领域所做的那样?
黄仁勋(Jen-Hsun Huang):我们现在是全球最大的网络公司。我预计我们还将成为全球最大的存储处理器公司,而且很可能我们的高端 CPU 出货量也将超过其他任何公司。原因在于,Vera 和 Grace(以及 Vera 相关产品)已经应用于每个节点的智能网络接口卡(SmartNIC)中。
我们现在是 AI 工厂的智能网络接口卡提供商。当然,很多云服务提供商都有自己的智能网络接口卡(如亚马逊的 Nitro),他们会继续使用。但在外部市场,BlueField 系列产品取得了巨大的成功,而且 BlueField-4 将会表现更加出色。BlueField-4 的采用率(不仅仅是早期采用)正在快速增长。其上层的软件层名为 DOCA(发音与 CUDA 相近),现在已经被广泛采用。因此,在高性能网络的东西向流量(east-west traffic)方面,我们是市场领导者。
在网络隔离的南北向流量(north-south networking)方面,我非常有信心我们也将成为市场领导者之一。而存储领域目前是一个完全未被充分服务的市场。传统的存储基于 SQL 结构化数据,结构化数据库相对轻量化。而 AI 数据库的键值缓存(KV caches)则极其庞大,你不可能将其挂在南北向网络上 —— 这会造成网络流量的巨大浪费。你需要将其直接集成到计算架构中,这就是我们推出这一新层级存储技术的原因。
这是一个全新的市场,很可能会成为全球最大的存储市场 —— 它将承载全球 AI 的工作内存。这种存储的规模将是巨大的,而且需要极高的性能。我非常高兴的是,目前人们进行的推理工作负载已经超出了全球现有基础设施的计算能力。因此,我们现在处理的上下文(Context)内存、令牌内存和键值缓存的规模已经非常庞大,传统的存储系统已经无法满足需求。当市场出现这种拐点,而你又有远见能够预见它的到来时,这就是进入一个新市场的最佳时机。而 BlueField-4 在这一领域具有绝对的竞争优势,没有任何产品能与之匹敌。
Ken Chui- Robocap:我的问题同时涉及利润率和技术。你们目前已经拥有 CPX 技术,通过收购 Grok,你们还获得了可用于推理的 SRAM 技术。此外,你们的团队一个月前发表了一篇论文,讨论如何在 GPU 中使用 CPX 技术,从而减少对 HBM 的依赖 —— 因为可以用 GDDR7 替代 HBM。我们都知道 HBM 的成本非常高。因此,未来通过结合 Grok 的技术和你们内部的 CPX 技术,你们对 HBM 的使用会有何变化?这是否能更好地控制 HBM 的使用成本,从而对利润率产生积极影响?
黄仁勋(Jen-Hsun Huang):当然。我可以先描述一下这些技术各自的优势,然后再谈谈面临的挑战。例如,CPX 在每美元预填充性能(prefill per dollar)方面比普通的 Rubin 更有优势 ——Rubin CPX 的每美元预填充性能高于普通版 Rubin。如果将所有数据都存储在 SRAM 中,那么当然不需要 HBM 内存。但问题是,SRAM 能够支持的模型规模比 HBM 小 100 倍左右。
不过,对于某些工作负载来说,SRAM 的速度要比 HBM 快得多,因此性能会极其出色。因此,我认为它在预填充(prefill)和解码(decode)等场景中会有明显优势。但问题在于,工作负载的形态一直在变化 —— 有时是混合专家模型(MOE),有时是多模态模型,有时是扩散模型(diffusion models),有时是自回归模型(auto regressive models),有时是状态空间模型(SSMs)。这些模型的形态和规模各不相同,对 NVLink、HBM 内存或其他组件的压力也会不断变化。
因此,我的观点是,由于工作负载变化如此之快,而且全球的创新速度也在加快,英伟达之所以能够成为通用解决方案,正是因为我们的灵活性。大家明白我的意思吗?如果你的工作负载从早到晚都在变化,而且客户需求各不相同,那么我们的产品具有很强的通用性,几乎适用于所有场景。你可能能够针对某一种特定工作负载进行极致优化,但如果这种工作负载只占总负载的 10%、5% 甚至 12%,那么当它不被使用时,这部分数据中心资源就被浪费了 —— 而你只有 1 吉瓦的电力资源。
关键在于,你不能把数据中心看作是拥有无限资金和空间的资源,而是要在有限的电力下实现整体利用率的最大化。架构越灵活,整体效益就越好。如果采用统一的架构 —— 例如,当我们更新 DeepSeek 模型时,数据中心内所有 GPU 的性能都会立即提升;当我们更新通义千问(Qwen)模型的库时,整个数据中心的性能都会提升 —— 这样的协同效应是非常显著的。但如果你有 17 种不同的架构,每种架构只适用于特定场景,那么整体的总拥有成本(TCO)反而会更高。这就是面临的挑战。即使在我们研发这些技术时,也非常清楚这一点 —— 这非常困难。
(如果您需要完整版黄仁勋CES后的分析师会议问答记录,可以私信留言获取。)













评论