内存墙瓶颈：AI计算引爆内存超级周期

作者：时间：2026-02-05 来源：TrendForce 集邦咨询

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

AI 内存墙推动高带宽内存（HBM）与第五代双倍数据速率内存（DDR5）需求激增，于 2025 年第三季度触发超级周期。容量短缺迫使设备厂商要么涨价，要么降低规格，这一周期何时会终结？

在过去几十年里，半导体行业以摩尔定律为核心驱动力，持续提升晶体管密度、优化芯片性能并降低单位计算成本。随着行业迈入 AI 时代，缩放定律（Scaling Law）成为新目标 —— 开发者通过扩大 AI 模型规模、增加训练数据量和计算资源投入，实现模型性能的可预测提升。因此，行业焦点已从单个芯片的计算能力转向整体系统级性能。

在此背景下，内存带宽与数据传输效率的局限性愈发凸显，高带宽内存（HBM）的战略重要性近年来急剧提升。随着 AI 工作负载逐渐从训练转向推理，云服务提供商（CSP）加速 AI 基础设施投资与服务器部署，进一步推高了 DDR5 等服务器级 DRAM 的需求。

受此影响，三大 DRAM 制造商持续将先进制程产能向高端服务器 DRAM 和 HBM 倾斜，限制消费级 DRAM 供应，催生了新的内存价格超级周期，并将影响蔓延至消费电子市场。

AI 计算趋势遭遇 “内存墙” 挑战

当前主流基于 Transformer 架构的深度学习大型语言模型（LLM），其计算性能严重依赖内存访问。训练过程中，海量数据集、权重和参数，以及推理阶段生成每个令牌（token）时所需的键值缓存（KV cache），都需要被反复调用。当处理器计算能力增长速度显著超过内存带宽和数据传输能力时，大量处理时间将耗费在等待内存数据上，而非实际计算操作 —— 当系统性能受限于数据传输速度，便会出现典型的 “内存墙” 问题。

近年来，GPU 等 AI 芯片的计算能力增长速度远超内存带宽和数据传输效率。据《AI 与内存墙》研究显示，AI 模型计算能力每两年增长 3 倍，而内存带宽仅增长 1.6 倍，互联带宽约增长 1.4 倍。因此，大多数计算任务的瓶颈在于内存访问和通信效率，而非原始处理能力。

图 1：峰值硬件浮点运算能力（FLOPS）与内存 / 互联带宽的发展趋势

（注：硬件浮点运算能力 20 年间增长 60 万倍，每两年增长 3.0 倍；DRAM 带宽 20 年间增长 100 倍，每两年增长 1.6 倍；互联带宽 20 年间增长 30 倍，每两年增长 1.4 倍）

来源：加州大学伯克利分校 Amir Gholami 等人（2024）《AI 与内存墙》、TrendForce 集邦咨询

从理论建模角度，这种结构性失衡可通过 “屋顶线模型（Roofline Model）” 解释。深度学习模型主要由矩阵乘法运算构成，总计算量以浮点运算次数（FLOPs）衡量。

屋顶线模型提供了计算理论可达性能的框架，公式如下：

P = min (π, β × I)

图 2：屋顶线模型：计算能力增长下内存受限区域的扩大

（注：计算能力提升使拐点向右上方移动，提高最大性能的同时，扩大了内存受限区域）

来源：TrendForce 集邦咨询

该模型表明，系统性能受限于最大可达性能（π）和最大内存带宽（β），拐点（Knee Point）代表达到最大可达性能所需的最小运算强度。

随着 AI 芯片计算能力持续提升（π 增大），若内存带宽斜率未相应提高（β 保持不变），拐点将向右上方移动，使更多计算任务处于内存受限区域。换句话说，计算能力的持续增长会加剧内存对性能提升的限制 —— 这也是 AI 巨头们的竞争焦点从单纯提升浮点运算能力，转向 “内存军备竞赛” 的核心原因。

HBM 成为 AI 计算提速的关键解决方案

随着大型语言模型规模持续扩大（参数突破万亿级），单芯片已无法承载完整模型计算，转而演进为多 AI 加速器组成的集群架构。集群中 AI 加速器数量越多，每个加速器内部及芯片间每秒需传输的数据量就越大。

在这种架构下，数据传输挑战进一步延伸至芯片间（横向扩展）乃至数据中心层级间（跨域扩展），不仅造成严重的内存墙瓶颈，也使芯片间带宽的重要性日益凸显。除了 InfiniBand 与以太网的竞争，HBM 已成为 AI 加速器的最优内存选择。

HBM 通过硅通孔（TSV）和先进封装技术将多片 DRAM 芯片垂直堆叠，并与 GPU 集成在同一封装内。相较于传统平面 DRAM，HBM 大幅缩短数据传输路径，具备 1024 位超宽接口，提供远超传统 GDDR 的内存带宽。

预计 2026 年量产的 HBM4，总带宽将达到 2TB/s，接口宽度翻倍至 2048 位，同时保持 8.0Gbps 以上的数据传输速率 —— 这使得 HBM4 无需提高时钟频率即可将数据吞吐量翻倍，进一步提升 AI 芯片在高并行、数据密集型工作负载下的性能。

AI 巨头的规格军备竞赛引发 HBM 需求激增

HBM 在性能、输入输出（I/O）数量和带宽上的持续迭代，已成为 AI 加速器规格升级的核心支柱。近年来，英伟达、AMD、谷歌等企业持续推动其 AI 芯片向更新一代 HBM 迁移，单芯片 HBM 堆叠层数和总内存容量显著提升，直接拉动 HBM 需求增长。

根据 TrendForce 集邦咨询基于 2025 年 AI 芯片出货量的估算，HBM 需求同比增长将超 130%；2026 年，在 B300、GB300、R100/R200、VR100/VR200 等下一代平台普及，以及谷歌 TPU、亚马逊 AWS Trainium 加速向 HBM3e 迁移的推动下，HBM 消费量将继续增长，同比增幅仍超 70%。

表 1：英伟达、AMD、谷歌 AI 芯片的 HBM 采用趋势

品牌	产品名称	HBM 规格	HBM 堆叠层数	HBM 总容量（GB）
英伟达	H100	HBM3 8 层堆叠	5	80
	H200	HBM3E 8 层堆叠	6	141
	B200	HBM3E 8 层堆叠	8	192
	GB200	HBM3E 8 层 / 16 层堆叠	8/16	192/384
	GB300	HBM3E 12 层堆叠	8/16	288/578
	VR200	HBM4 12 层堆叠	16	576
	VR300	HBM4E 16 层堆叠	16	1024
AMD	MI30OX	HBM3 12 层堆叠	8	192
	MI325X	HBM3E 12 层堆叠	8	288
	M1350	HBM3E 12 层堆叠	8	288
	MI400	HBM4 12 层堆叠	12	432
谷歌	TPU v6e	HBM3E 8 层堆叠	4	32
	TPU v7p	HBM3E 8 层堆叠	8	192
	TPU v8e	HBM3e 12 层堆叠	6	216
	TPU v8p	HBM3e 12 层堆叠	8	288

来源：TrendForce 集邦咨询（2026 年 1 月）

AI 推理崛起推动 DDR5 需求增长

随着 AI 计算重心逐渐从训练转向推理，其应用场景向终端用户快速渗透 —— 预计到 2029 年，AI 推理将成为 AI 服务器需求的主要驱动力。

图 3：AI 服务器需求预测：训练 vs 推理（2025F–2029F）

来源：TrendForce 集邦咨询（2025 年 12 月）

据麦肯锡报告预测，到 2028 年，AI 推理的功耗将超过训练和非 AI 工作负载，成为数据中心最大的功耗来源。这一转变将推动硬件架构和能源分配的全面变革。

为应对这一趋势，行业正在重新评估计算各阶段的硬件配置策略，这对超大规模数据中心运营商的供电和网络架构长期规划具有重要意义 —— 核心目标是在优化性能成本比的同时，有效降低总拥有成本（TCO），体现出推理需求对整个数据中心基础设施的系统性重塑。

推理需求下的 DDR5 配置升级与价格趋势

训练和推理对内存的需求存在差异：

训练阶段：需反复处理海量数据集，对内存带宽要求极高 —— 带宽不足会导致计算单元闲置，无法发挥最优性能，因此通常采用搭载 HBM 的 AI 加速器，避免内存受限瓶颈。
推理阶段：内存需求因实际计算环节而异，可分为两部分：

预填充（Prefill）：系统一次性处理完整的用户输入提示，将文本拆分为令牌并执行大规模矩阵运算 —— 此阶段计算密集，但对内存带宽敏感度较低，可采用高性价比的 DDR 或 GDDR 内存配置。
解码（Decode）：模型反复访问权重参数和 KV 缓存，逐令牌生成响应 —— 计算需求下降，但内存需求显著上升，内存访问延迟直接影响每个令牌的生成速度，仍需 HBM 或 HBF 等高频宽、大容量内存配置。

云服务提供商正通过扩大通用服务器部署以满足增长的推理需求，DDR5 凭借性能与成本的平衡成为最优内存选择。这一趋势促使北美云服务提供商从 2025 年下半年开始，计划在 2026 年的服务器采购中大幅提高 DDR5 部署比例，进一步推高 DDR5 需求与价格。

根据 TrendForce 集邦咨询分析，2025 年第四季度，服务器级 DDR5 与 HBM3e 的合约价格快速靠拢 ——HBM3e 原本价格是服务器级 DDR5 的 4-5 倍，预计到 2026 年底，价差将缩小至 1-2 倍。

随着标准 DRAM 盈利能力逐渐提升，部分供应商开始向 DDR5 转移产能，为 HBM3e 价格上涨留出更大空间。

表 2：HBM 与 DDR5：技术与应用对比

项目	HBM	DDR5
设计架构	通过 TSV 垂直堆叠 DRAM，与 GPU 共封装集成	平面单芯片 DRAM，可通过标准 DIMM 模块扩展
总线宽度	超宽（每堆叠 1024 位）	较窄（32 位 ×2）
带宽	极高（TB/s 级别）	较高（GB/s 级别）
总内存容量	较低（与 GPU 共封装，容量固定）	较高（可通过 DIMM 插槽扩展）
成本	极高	相对较低
功耗	较低	较高
主要应用场景	AI 模型训练及推理（解码阶段）、高性能计算（HPC）	AI 模型推理（预填充阶段）、通用服务器、个人电脑

内存超级周期来袭，消费电子首当其冲

2025 年第三季度，AI 与通用服务器的内存需求扭转市场趋势，引发供应短缺。三大 DRAM 制造商将产能优先分配给 HBM 和高端服务器 DRAM，但晶圆厂产能有限，2026 年供应难以大幅扩张。与此同时，这挤压了通用服务器和消费级 DRAM 的供应，推动整体 DRAM 价格上涨，标志着新的内存超级周期到来。

TrendForce 集邦咨询预计，2026 年第一季度内存价格将再次大幅上涨，内存成本在智能手机、个人电脑等消费终端物料清单（BOM）中的占比快速上升。消费电子制造商受冲击最严重，直接影响出货量 —— 智能手机和笔记本电脑品牌为控制成本，不得不降低规格或推迟升级，其中 DRAM 因占总成本比重较大，受影响最为明显。

总体而言，中高端 DRAM 容量将向市场最低标准靠拢，升级节奏放缓，而所有消费电子市场的低端细分领域将遭受最大冲击。

消费电子利润危机，出货量全面疲软

TrendForce 集邦咨询于 2025 年 11 月首次下调 2026 年全球智能手机、笔记本电脑和游戏机产量预测；但随着内存价格持续上涨，12 月底结合供应链动态再次修正所有终端设备预估：

智能手机：2026 年产量同比增速从最初预期的 0.1% 下调至 - 2%，12 月底进一步降至 - 3.5%，2026 年 1 月中旬再修正为 - 7%。TrendForce 集邦咨询分析，即使是盈利能力相对较强的 iPhone 机型，2026 年第一季度内存占 BOM 成本比重也将显著上升，迫使苹果重新考虑新设备定价，甚至可能减少或取消旧机型的计划折扣。对于面向中低端市场的安卓品牌，内存已是核心卖点之一，其 BOM 成本占比本就较高 —— 随着价格飙升，2026 年低端智能手机将回归 4GB 内存配置，品牌需调整定价或供应周期以减少损失。
笔记本电脑：2026 年出货量从先前预期的同比增长 1.7% 下调至 - 2.8%，后进一步调整为 - 5.4%。苹果、联想等供应链整合度高、定价灵活的品牌，应对内存涨价的空间更大；但低端消费级笔记本品牌难以转嫁成本，且受处理器和操作系统要求限制，进一步降规难度较大。若第二季度内存涨价趋势未缓解，TrendForce 集邦咨询预测 2026 年全球笔记本电脑出货量同比降幅可能扩大至 10.1%。
游戏机：2026 年出货量预测从先前的同比下降 3.5% 下调至 4.4%。任天堂 Switch 2、索尼 PS5、微软 Xbox X 等主力机型，内存成本占 BOM 比重已从过去的约 15% 升至 23%–42%，硬件毛利率严重受压。2026 年，三大厂商将难以预留促销空间或延续此前的以量取胜策略，可能进一步抑制出货势头；若内存市场状况无改善，全球游戏机渗透率预计将进入阶段性停滞。

表 3：智能手机与笔记本电脑 DRAM 容量规格趋势

产品类别	市场细分	调整后规格	此前规格	说明
智能手机	高端	12~16 GB	12~16 GB	16GB 普及节奏放缓
	中端	6~8 GB	6~12 GB	12GB 将逐步退出中端机型
	低端	4 GB	4~8 GB	受供应商产能限制及成本压力，回归 4GB
笔记本电脑	高端	16~64 GB	16~64 GB	主流出货集中在 16GB
	中端	8~16 GB	8~16 GB	以 8~16GB 为主，出货向 8GB 倾斜
	低端	8 GB	8 GB	短期内难以进一步降低

来源：TrendForce 集邦咨询（2025 年 12 月）

“突破内存墙” 的军备竞赛：2026 年内存超级周期与涨价展望

与 2016–2018 年由通用服务器需求驱动、持续约 9 个季度的内存超级周期不同，本轮周期的核心驱动力是 “突破内存墙”—— 随着 AI 芯片计算能力增长速度远超内存带宽，系统性能日益受限于数据传输效率，行业竞争从原始计算性能转向内存军备竞赛。

本轮周期由 AI 与通用服务器需求共同推动，为突破内存墙瓶颈，供应产品结构变得高度复杂，涵盖 HBM、DDR5、企业级 SSD 等高端内存产品，同时影响标准内存的供应稳定性。

在产能持续受限的背景下，本轮内存超级周期预计将延续至 2026 年，市场已进入卖方市场 —— 制造商持续上调合约价格、管控产能扩张，维持高位定价。2026 年 DRAM 价格预计上涨超 70%，短缺与涨价趋势或将持续。

新闻中心

内存墙瓶颈：AI计算引爆内存超级周期

评论

相关推荐

技术专区