新闻中心

EEPW首页 > 智能计算 > 设计应用 > 借助英伟达全新CMX平台突破GPU内存墙瓶颈

借助英伟达全新CMX平台突破GPU内存墙瓶颈

作者: 时间:2026-03-04 来源: 收藏

在扩展 AI 工作负载的过程中,你会遇到的问题之一就是 KV 缓存耗尽 HBM 内存,这会限制 AI 应用的 “记忆” 容量,并导致用户体验下降。针对这一问题,及其合作伙伴正在开发全新的 上下文内存存储平台(Context Memory Storage,。上周在美国犹他州盐湖城举办的首届 VAST Forward 大会上, 的代表演示了 如何突破 。 

KV 缓存是现代 AI 技术栈的固有组件。有了 KV 缓存,用户不必每天早上 7 点重新加载所有输入给 AI 模型的上下文,而是可以将上下文长期保留(按天、按月),以简单的键值存储形式存放在 HBM、片上内存,最终延伸到存储介质中。作为 AI 技术栈面向用户的核心组件之一,KV 缓存自然会受到人类使用需求的影响。换句话说,当员工使用 AI 时 —— 无论是生成猫咪视频,还是搜索新的核苷酸序列 —— 缓存都会快速占满

1772587161544912.png

图1 不断膨胀的 KV 缓存正在挤占内存 来源:与 VAST 在 2026 VAST Forward 大会上的演讲《突破

“KV 缓存的一个核心问题是,它会随着你使用的上下文长度与批次大小同步增长。” 英伟达高级研究科学家 Vikram Sharma Mailthody 在上周 VAST Forward 的一场演讲中表示,“假设我们使用相同的模型进行推理……缓存计算成本会随上下文长度呈二次方增长。正如你所见,当你需要使用更长的上下文窗口时,系统负担会显著增加,这在智能体工作流中尤为明显。”

这已成为当前扩展 AI 推理系统的核心瓶颈之一。除了 HBM 与 之间的数据搬运速度之外,HBM 能存储的数据量,也直接决定了 AI 能完成多少有效工作。当 HBM 占满后,KV 缓存会开始溢出到系统内存;系统内存也占满后,就会溢出到本地存储。但到那时,延迟就会严重影响用户体验。谁愿意等上五分钟,才等到智能体 AI 系统给出回答?

“核心结论很简单:推理上下文离 GPU 越远,推理的成本就越高、效率也越低。”Mailthody 说,“这就是为什么现有的内存与存储层级结构,并不适合为下一代 AI 做扩展。也正因如此,我们必须重新构想:存储应该如何构建,以及应该如何为推理上下文管理而构建。”

英伟达针对 “上下文窗口–GPU ” 问题的短期解决方案就是 平台。该平台于今年 1 月随 BlueField‑4 DPU(数据处理器)一同发布。英伟达正与包括 在内的存储合作伙伴合作,大幅扩展 KV 缓存容量,让客户能够用智能体 AI 完成更多工作。

1772587185957196.png

图2 CMX 旨在扩展客户 KV 缓存且不损失性能 (来源:同上)

CMX 包含多个组件:

  • 在基础设施层面,它将使用英伟达下一代      Rubin GPU 系统,并利用部署在 VAST 等存储厂商管理的存储集群中的      BlueField‑4 DPU。BlueField‑4      将帮助管理元数据、减少数据迁移,并让 Rubin GPU 从数据管理负担中解放出来。

  • 它还将利用      Spectrum‑X 以太网交换机,构建基于 RoCE(面向融合以太网的远程直接内存访问)      的高速网络架构,用于高速共享 KV 缓存数据。

  • 在软件层面,CMX 将使用英伟达面向 BlueField‑4 的 DOCA 开发套件,以及 Nvidia Inference      Transfer Library(NIXL)——      这是一个开源库,用于加速 Dynamo 内部的数据迁移。Dynamo 是英伟达开源的 AI 推理框架。

Mailthody 表示,CMX + VAST 存储的组合将提供下一代千兆级推理架构,可实现:

  • 首词延迟(TTFT)最高提升 20 倍

  • GPU 利用率提升 90%

  • 存储功耗降低 70%

VAST AI 架构总监 Anat Heilper 在 VAST Forward 演讲中表示,基于 CMX 的键值块管理器,VAST 可以 “从根本上改变计算逻辑”。

“我们把缓慢、重 I/O 的过程,变成了高吞吐量、受网络限制的过程。” 她说,“本质上,这意味着存储可以随网络一起扩展,以支撑这类工作负载。”

在基于 Llama 3 模型的基准测试中,VAST 实现了 200GbE 网络接近线速利用率,该网络连接了 8 张 H100 GPU。

1772587206778423.png

图3 VAST 与英伟达合作开发 CMX (来源:同上)

“结果显示,从 VAST 系统中读取 KV 缓存,相比让 GPU 重新计算,首词响应速度提升 20 倍。”Heilper 说,“这是用户能直观感受到的变化。原本需要等待 GPU 计算 65 秒,现在只需要 3 秒就能读取。这是根本性的改变。这种加速,再加上 GPU 时间节省 90%,体现了效率的巨大提升。”

如果使用更快的网络,收益还会更高,因为 VAST 已经(几乎)打满了 200GbE 带宽。在实际场景中,VAST 估算:通过 CMX 和 BlueField‑4 DPU 将 KV 缓存溢出到 VAST NVMe 存储,利润可提升 60%~130%

(VAST 上周还发布了全新 CNode‑X,将英伟达 GPU、BlueField‑4 DPU 和 Spectrum‑X 硅光交换机直接集成到 VAST 存储集群中。)

“我们假设企业 AI 工作流的缓存命中率保守在 40%~60%。对于智能体工作流和认知任务,提升幅度可能更高。”Heilper 说,“原理很明确:我们没有让 GPU 变快 —— 那是英伟达的工作。但我们让它更常处于可用状态,并把存储变成算力倍增器。”

VAST 还给出了一份用于智能体系统的 最佳 KV 缓存容量配置指南

  • 对于 10,000 名用户、每轮对话 32GB KV 缓存的组织,要支持 “即时恢复” 会话,需要 320TB 系统

  • 保留每位用户最近 5 轮会话(每日备份):需要 1.6PB 系统

  • 保留最近 15 轮会话(适合程序员、研究员等高频用户做周级缓存):需要 4.8PB      系统

  • 要实现 “智能体记忆”,即      10,000 名用户每人 150 轮会话:需要 48PB 存储

“CMX 是一种专为 KV 缓存设计的新型存储。”Mailthody 说,“它会取代这里所有的存储吗?适合所有人、所有集群吗?不,并不是。CMX 专为推理和 KV 缓存管理而设计

如果你的工作负载模型大、需要大缓存,CMX 就是为此而生。

如果你有需要超长输入序列的场景,比如 AI、聊天机器人或推理模型,它能提供超大内存容量,让服务极高效。如果你的访问模式存在大量内容复用,或是拥有跨多洲共享的大型 GPU 集群,CMX 能轻松启用并提升运营效率。”


评论


相关推荐

技术专区

关闭