GPU：面临工作负载转变的高吞吐架构

作者：时间：2026-05-20 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

当前 AI 基础设施存在核心架构矛盾：GPU 仍是大规模 AI 训练和推理的主流计算引擎，但前沿大语言模型的计算特性正在发生变化，逐步暴露 GPU 原始设计的固有缺陷。

内存墙成为 GPU 效率核心瓶颈

内存墙指处理器计算速度与内存数据供给速度之间不断扩大的差距，导致强大的计算单元长期处于闲置状态，等待数据传输。

以英伟达 H100 为例，其纸面 FP8 张量算力可达数 PetaFLOPS，高带宽内存吞吐量达数 TB/s。但在万亿参数级大语言模型推理场景中，系统通常受限于内存而非计算，算术强度常低于 10 FLOPs / 字节，性能由参数读取和激活值传输速度决定。

能耗问题进一步放大了这种不平衡。一次浮点乘加运算的能耗远低于一次高带宽内存（HBM）访问，跨芯片通信的能耗更是比本地计算高出数个数量级。

典型内存层级容量、能耗、带宽与延迟对比

随着模型规模增长，系统能源消耗中数据移动的占比持续上升，计算单元因等待权重张量而频繁停顿，实际吞吐量由带宽和延迟而非峰值 FLOPS 决定。当模型超过单卡内存容量需要分布式部署时，这一问题会进一步加剧。

GPU 架构与前沿 LLM 工作负载不匹配

GPU 在机器学习领域的成功，源于其硬件结构与早期模型行为的高度契合。现代 GPU 基于单指令多线程（SIMT）执行模型，当大量线程执行相同路径、内存访问规律、计算密集且同步开销低时，能达到最高效率。

这种设计起源于图形渲染，也非常适合早期卷积神经网络和密集 Transformer 模型。大矩阵乘法、规则张量形状和高算术强度能完美映射到 GPU 张量核心和向量化执行流水线，在足够大的批次下，GPU 可维持极高的利用率。

但前沿大语言模型正在偏离这种密集、同质化的工作负载。现代 LLM 系统越来越多地采用条件计算技术，包括混合专家（MoE）层、动态 token 路由、检索增强、推测解码、自适应上下文管理和稀疏注意力机制。这些技术提升了模型级别的参数效率，但也引入了执行不规则性，而这正是 SIMT 架构效率低下的场景。

问题不仅限于传统的 warp 分歧。更深层的矛盾在于：SIMT 处理器针对时空一致的工作负载优化，而前沿推理越来越呈现稀疏、动态调度、负载不均和强通信依赖的特征。

以稀疏 MoE 系统为例，16 专家 top-2 路由的模型每次推理仅激活约 1/8 的总参数。虽然这大幅提升了参数效率，但也将执行拆分为不均匀且动态变化的工作负载，导致专家负载不均、小批次无法充分利用矩阵引擎、内存访问模式不规则、内核启动粒度变差、同步开销增加。最终，GPU 的理论算术吞吐量难以转化为实际应用级吞吐量。

交互式 AI 和智能体工作流进一步加剧了这一问题。GPU 在处理大批量数据时效率最高，但交互式场景要求低延迟，无法等待积累大量请求，只能使用小批次。小批次导致矩阵运算规模变小，GPU 花费更多时间在数据移动而非计算上，利用率大幅下降，形成低延迟与高效率的固有矛盾。

替代 AI 加速架构兴起

上述压力催生了专门针对 Transformer 工作负载和数据移动效率设计的替代加速器架构。谷歌 TPU 强调脉动阵列和编译器驱动的数据流调度，以提高确定性并减少分歧开销；Cerebras 采用晶圆级集成，将数十 GB SRAM 直接放在芯片上，最大限度减少片外内存流量；Graphcore 的 IPU 围绕细粒度并行和分布式本地内存设计，明确针对不规则和稀疏工作负载；VSORA 则用数据流架构取代 SIMT 计算模型，通过大规模平面寄存器文件直接向计算引擎供给数据。

这些方案各有取舍和不同的生态成熟度，但都基于同一个前提：未来 AI 工作负载的瓶颈不再是算术吞吐量，而是数据编排、局部性和通信效率。

未来趋势

GPU 仍将是 AI 基础设施的基础，尤其是在训练领域。其生态成熟度、可编程性和密集训练吞吐量，确保了在大规模预训练阶段的持续主导地位，因为预训练阶段算术强度高且工作负载相对规则。

但随着模型向条件化、分布式、内存受限方向发展，GPU 的架构摩擦将越来越明显。未来 AI 加速的核心问题，不再是孤立地提供多少浮点运算每秒，而是如何在日益复杂和稀疏激活的模型中，高效地移动、路由和调度数据。