新闻中心

EEPW首页 > 智能计算 > 设计应用 > GPU:面临工作负载转变的高吞吐架构

GPU:面临工作负载转变的高吞吐架构

作者: 时间:2026-05-20 来源: 收藏

当前 AI 基础设施存在核心架构矛盾:GPU 仍是大规模 AI 训练和推理的主流计算引擎,但前沿大语言模型的计算特性正在发生变化,逐步暴露 GPU 原始设计的固有缺陷。

墙成为 GPU 效率核心瓶颈

墙指处理器计算速度与数据供给速度之间不断扩大的差距,导致强大的计算单元长期处于闲置状态,等待数据传输。

以英伟达 H100 为例,其纸面 FP8 张量算力可达数 PetaFLOPS,高带宽内存吞吐量达数 TB/s。但在万亿参数级大语言模型推理场景中,系统通常受限于内存而非计算,算术强度常低于 10 FLOPs / 字节,性能由参数读取和激活值传输速度决定。

能耗问题进一步放大了这种不平衡。一次浮点乘加运算的能耗远低于一次高带宽内存(HBM)访问,跨芯片通信的能耗更是比本地计算高出数个数量级。

image.png

典型内存层级容量、能耗、带宽与延迟对比

随着模型规模增长,系统能源消耗中数据移动的占比持续上升,计算单元因等待权重张量而频繁停顿,实际吞吐量由带宽和延迟而非峰值 FLOPS 决定。当模型超过单卡内存容量需要分布式部署时,这一问题会进一步加剧。

GPU 架构与前沿 LLM 工作负载不匹配

GPU 在机器学习领域的成功,源于其硬件结构与早期模型行为的高度契合。现代 GPU 基于单指令多线程(SIMT)执行模型,当大量线程执行相同路径、内存访问规律、计算密集且同步开销低时,能达到最高效率。

这种设计起源于图形渲染,也非常适合早期卷积神经网络和密集 Transformer 模型。大矩阵乘法、规则张量形状和高算术强度能完美映射到 GPU 张量核心和向量化执行流水线,在足够大的批次下,GPU 可维持极高的利用率。

但前沿大语言模型正在偏离这种密集、同质化的工作负载。现代 LLM 系统越来越多地采用条件计算技术,包括混合专家(MoE)层、动态 token 路由、检索增强、推测解码、自适应上下文管理和稀疏注意力机制。这些技术提升了模型级别的参数效率,但也引入了执行不规则性,而这正是 SIMT 架构效率低下的场景。

问题不仅限于传统的 warp 分歧。更深层的矛盾在于:SIMT 处理器针对时空一致的工作负载优化,而前沿推理越来越呈现稀疏、动态调度、负载不均和强通信依赖的特征。

以稀疏 MoE 系统为例,16 专家 top-2 路由的模型每次推理仅激活约 1/8 的总参数。虽然这大幅提升了参数效率,但也将执行拆分为不均匀且动态变化的工作负载,导致专家负载不均、小批次无法充分利用矩阵引擎、内存访问模式不规则、内核启动粒度变差、同步开销增加。最终,GPU 的理论算术吞吐量难以转化为实际应用级吞吐量。

交互式 AI 和智能体工作流进一步加剧了这一问题。GPU 在处理大批量数据时效率最高,但交互式场景要求低延迟,无法等待积累大量请求,只能使用小批次。小批次导致矩阵运算规模变小,GPU 花费更多时间在数据移动而非计算上,利用率大幅下降,形成低延迟与高效率的固有矛盾。

替代 AI 加速架构兴起

上述压力催生了专门针对 Transformer 工作负载和数据移动效率设计的替代加速器架构。谷歌 TPU 强调脉动阵列和编译器驱动的数据流调度,以提高确定性并减少分歧开销;Cerebras 采用晶圆级集成,将数十 GB SRAM 直接放在芯片上,最大限度减少片外内存流量;Graphcore 的 IPU 围绕细粒度并行和分布式本地内存设计,明确针对不规则和稀疏工作负载;VSORA 则用数据流架构取代 SIMT 计算模型,通过大规模平面寄存器文件直接向计算引擎供给数据。

这些方案各有取舍和不同的生态成熟度,但都基于同一个前提:未来 AI 工作负载的瓶颈不再是算术吞吐量,而是数据编排、局部性和通信效率。

未来趋势

GPU 仍将是 AI 基础设施的基础,尤其是在训练领域。其生态成熟度、可编程性和密集训练吞吐量,确保了在大规模预训练阶段的持续主导地位,因为预训练阶段算术强度高且工作负载相对规则。

但随着模型向条件化、分布式、内存受限方向发展,GPU 的架构摩擦将越来越明显。未来 AI 加速的核心问题,不再是孤立地提供多少浮点运算每秒,而是如何在日益复杂和稀疏激活的模型中,高效地移动、路由和调度数据。


评论


相关推荐

技术专区

关闭