英伟达 Groq 3:AI 推理时代已至
在 2026 年英伟达 GTC 大会上,英伟达 CEO 黄仁勋(Jensen Huang)发布了首款专为 AI 推理设计的芯片 ——Groq 3 语言处理单元(LPU)。该芯片融合了英伟达去年圣诞夜以 200 亿美元收购初创公司 Groq 获得的知识产权,将与 Vera Rubin GPU 协同工作,加速 AI 推理 workload。

推理时代的拐点
黄仁勋在大会上表示:“AI 终于能够进行生产性工作,推理的拐点已经到来。AI 现在必须思考,而思考需要推理;AI 现在必须行动,而行动同样需要推理。”
训练与推理的计算需求差异显著:训练可并行处理海量数据、耗时数周;推理则需即时响应用户查询,无需反向传播,核心诉求是低延迟。随着 AI 从模型训练转向规模化应用,推理成为算力需求的核心。
内存带宽与数据流设计
Groq 的核心技术在于片上 SRAM + 线性数据流架构,而非传统 GPU 依赖的片外 HBM。芯片将处理单元与内存单元交错布局,数据直接通过 SRAM 线性流动,无需频繁进出芯片,大幅简化数据通路、降低延迟。
单颗 Groq 3 LPU 集成500MB 片上 SRAM,内存带宽达150TB/s,是 Vera Rubin GPU(22TB/s)的近 7 倍;FP8 算力为1.2PFlops,晶体管数约 980 亿。相比之下,Vera Rubin GPU 拥有 288GB HBM4、50PFlops(4-bit)算力,更适合并行计算与长上下文处理。
异构协同:解耦推理
英伟达推出Groq 3 LPX计算托盘,每托盘集成 8 颗 Groq 3 LPU 与 1 颗 Vera Rubin GPU,通过Dynamo 软件框架实现分工:
Vera Rubin GPU:负责预填充(prefill)、注意力计算等计算密集型任务;
Groq 3 LPU:负责低延迟的 Token 生成解码。
这种解耦推理方案兼顾了 GPU 的高吞吐与 LPU 的低延迟,单颗 LPU 解码速度可达 500 token/s,组合方案可将智能体间通信吞吐量从约 100 token/s 提升至 1500 token/s 以上,每瓦特推理吞吐量较前代提升35 倍,单位 Token 成本降至传统方案的 1/5~1/10。
市场与竞争格局
推理专用芯片赛道此前涌现出 D-matrix、Etched、RainAI 等多家初创公司,采用存内计算、模拟计算、对数数学等差异化技术。英伟达 Groq 3 的发布,标志着行业头部厂商正式入局推理芯片市场。
AWS 也推出了由 Tranium AI 加速器与 Cerebras CS-3 芯片组成的推理系统,通过分离预填充与解码阶段优化性能。而英伟达通过异构协同方案,将 LPU 与 GPU 的优势结合,形成差异化竞争力。
量产与应用前景
Groq 3 LPU 已进入量产阶段,由三星代工,预计 2026 年下半年出货。其应用场景覆盖大语言模型推理、智能体系统、自动驾驶、机器人等,尤其适合需要低延迟、高并发的实时交互场景。
这一发布不仅是英伟达在推理芯片领域的技术突破,更预示着 AI 计算的重心从训练全面转向推理,异构计算成为未来算力架构的核心方向。











评论