英伟达 Groq 3：AI 推理时代已至

作者：时间：2026-03-24 来源：IEEE

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

在 2026 年英伟达 GTC 大会上，英伟达 CEO 黄仁勋（Jensen Huang）发布了首款专为 AI 推理设计的芯片 ——Groq 3 语言处理单元（LPU）。该芯片融合了英伟达去年圣诞夜以 200 亿美元收购初创公司 Groq 获得的知识产权，将与 Vera Rubin GPU 协同工作，加速 AI 推理 workload。

推理时代的拐点

黄仁勋在大会上表示：“AI 终于能够进行生产性工作，推理的拐点已经到来。AI 现在必须思考，而思考需要推理；AI 现在必须行动，而行动同样需要推理。”

训练与推理的计算需求差异显著：训练可并行处理海量数据、耗时数周；推理则需即时响应用户查询，无需反向传播，核心诉求是低延迟。随着 AI 从模型训练转向规模化应用，推理成为算力需求的核心。

内存带宽与数据流设计

Groq 的核心技术在于片上 SRAM + 线性数据流架构，而非传统 GPU 依赖的片外 HBM。芯片将处理单元与内存单元交错布局，数据直接通过 SRAM 线性流动，无需频繁进出芯片，大幅简化数据通路、降低延迟。

单颗 Groq 3 LPU 集成500MB 片上 SRAM，内存带宽达150TB/s，是 Vera Rubin GPU（22TB/s）的近 7 倍；FP8 算力为1.2PFlops，晶体管数约 980 亿。相比之下，Vera Rubin GPU 拥有 288GB HBM4、50PFlops（4-bit）算力，更适合并行计算与长上下文处理。

异构协同：解耦推理

英伟达推出Groq 3 LPX计算托盘，每托盘集成 8 颗 Groq 3 LPU 与 1 颗 Vera Rubin GPU，通过Dynamo 软件框架实现分工：

Vera Rubin GPU：负责预填充（prefill）、注意力计算等计算密集型任务；
Groq 3 LPU：负责低延迟的 Token 生成解码。

这种解耦推理方案兼顾了 GPU 的高吞吐与 LPU 的低延迟，单颗 LPU 解码速度可达 500 token/s，组合方案可将智能体间通信吞吐量从约 100 token/s 提升至 1500 token/s 以上，每瓦特推理吞吐量较前代提升35 倍，单位 Token 成本降至传统方案的 1/5~1/10。

市场与竞争格局

推理专用芯片赛道此前涌现出 D-matrix、Etched、RainAI 等多家初创公司，采用存内计算、模拟计算、对数数学等差异化技术。英伟达 Groq 3 的发布，标志着行业头部厂商正式入局推理芯片市场。

AWS 也推出了由 Tranium AI 加速器与 Cerebras CS-3 芯片组成的推理系统，通过分离预填充与解码阶段优化性能。而英伟达通过异构协同方案，将 LPU 与 GPU 的优势结合，形成差异化竞争力。

量产与应用前景

Groq 3 LPU 已进入量产阶段，由三星代工，预计 2026 年下半年出货。其应用场景覆盖大语言模型推理、智能体系统、自动驾驶、机器人等，尤其适合需要低延迟、高并发的实时交互场景。

这一发布不仅是英伟达在推理芯片领域的技术突破，更预示着 AI 计算的重心从训练全面转向推理，异构计算成为未来算力架构的核心方向。