新闻中心

EEPW首页 > 智能计算 > 设计应用 > 英伟达 Groq 3:AI 推理时代已至

英伟达 Groq 3:AI 推理时代已至

作者: 时间:2026-03-24 来源:IEEE 收藏

在 2026 年 GTC 大会上, CEO 黄仁勋(Jensen Huang)发布了首款专为 设计的芯片 —— 语言处理单元()。该芯片融合了去年圣诞夜以 200 亿美元收购初创公司 Groq 获得的知识产权,将与 Vera Rubin GPU 协同工作,加速 workload。

1774316032826240.png

推理时代的拐点

黄仁勋在大会上表示:“AI 终于能够进行生产性工作,推理的拐点已经到来。AI 现在必须思考,而思考需要推理;AI 现在必须行动,而行动同样需要推理。”

训练与推理的计算需求差异显著:训练可并行处理海量数据、耗时数周;推理则需即时响应用户查询,无需反向传播,核心诉求是低延迟。随着 AI 从模型训练转向规模化应用,推理成为算力需求的核心。

内存带宽与数据流设计

Groq 的核心技术在于片上 SRAM + 线性数据流架构,而非传统 GPU 依赖的片外 HBM。芯片将处理单元与内存单元交错布局,数据直接通过 SRAM 线性流动,无需频繁进出芯片,大幅简化数据通路、降低延迟。

单颗 集成500MB 片上 SRAM,内存带宽达150TB/s,是 Vera Rubin GPU(22TB/s)的近 7 倍;FP8 算力为1.2PFlops,晶体管数约 980 亿。相比之下,Vera Rubin GPU 拥有 288GB HBM4、50PFlops(4-bit)算力,更适合并行计算与长上下文处理。

异构协同:解耦推理

英伟达推出 LPX计算托盘,每托盘集成 8 颗 Groq 3 与 1 颗 Vera Rubin GPU,通过Dynamo 软件框架实现分工:

  • Vera Rubin GPU:负责预填充(prefill)、注意力计算等计算密集型任务;

  • Groq 3 LPU:负责低延迟的 Token 生成解码。

这种解耦推理方案兼顾了 GPU 的高吞吐与 LPU 的低延迟,单颗 LPU 解码速度可达 500 token/s,组合方案可将智能体间通信吞吐量从约 100 token/s 提升至 1500 token/s 以上,每瓦特推理吞吐量较前代提升35 倍,单位 Token 成本降至传统方案的 1/5~1/10。

市场与竞争格局

推理专用芯片赛道此前涌现出 D-matrix、Etched、RainAI 等多家初创公司,采用存内计算、模拟计算、对数数学等差异化技术。英伟达 Groq 3 的发布,标志着行业头部厂商正式入局推理芯片市场。

AWS 也推出了由 Tranium AI 加速器与 Cerebras CS-3 芯片组成的推理系统,通过分离预填充与解码阶段优化性能。而英伟达通过异构协同方案,将 LPU 与 GPU 的优势结合,形成差异化竞争力。

量产与应用前景

Groq 3 LPU 已进入量产阶段,由三星代工,预计 2026 年下半年出货。其应用场景覆盖大语言模型推理、智能体系统、自动驾驶、机器人等,尤其适合需要低延迟、高并发的实时交互场景。

这一发布不仅是英伟达在推理芯片领域的技术突破,更预示着 AI 计算的重心从训练全面转向推理,异构计算成为未来算力架构的核心方向。


关键词: 英伟达 Groq 3 LPU AI 推理

评论


相关推荐

技术专区

关闭