内存墙越筑越高

作者：时间：2026-04-03 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

随着静态随机存取存储器（SRAM）在先进工艺节点下难以持续微缩，整个半导体行业必须评估其对各类计算场景的冲击，而短期内暂无简易解决方案。

核心要点

每一代工艺节点微缩时，同等容量的 SRAM 所占芯片面积比例持续上升。
该问题不仅局限于前沿 AI 芯片，最终将影响所有计算设备，甚至小型微控制器（MCU）与微处理器（MPU）。
行业可能需要进行架构变革；在逻辑芯片上堆叠 SRAM 小芯片可行，但成本高昂。

SRAM 是所有计算系统的核心组件，但其缩放进度已无法跟上逻辑电路的迭代速度，过去五年这一矛盾急剧恶化。

早在 1990 年，亨尼西与帕特森在《计算机架构：量化方法》一书中就明确指出：无论从容量还是性能来看，内存都将成为未来处理器发展的核心障碍。数十年来，硬件架构一直围绕这一难题优化，通常以 SRAM 作为高速缓存，搭配片外更大容量的动态随机存取存储器（DRAM）。这种方案让内存看起来更大，但速度往往慢得多，这就是著名的内存墙。

在所有计算场景中，程序与数据都存储在 SRAM 里，处理器从该内存读取指令，指令再指示处理器对同样存储于此的数据执行操作。

SRAM 比处理器内部暂存数据的寄存器更经济。尽管寄存器单元与 SRAM 使用的晶体管数量相当，但寄存器的解码与访问机制更昂贵，无法随寄存器组规模同步缩放。

SRAM 由存储单元阵列与外围电路组成，支持数据随机读写。多数情况下，外围电路为半定制设计，会随内存阵列扩大而调整。事实上，内存速度的提升很多来自外围电路优化，而非存储阵列本身。

SRAM 的容量与性能提升已近乎停滞，前景愈发严峻。这意味着：每一代工艺节点微缩，同等容量 SRAM 占用的芯片面积占比不断攀升。当更多芯片达到掩模版极限时，无法承受这种面积开销，不得不更多依赖外部内存，而外部内存速度要慢数个数量级。

在 AI 时代，内存访问模式发生改变，内存墙迅速成为主要性能瓶颈。

台积电承认 SRAM 缩放存在问题，但该代工厂声称其全新 2 纳米纳米片技术已实现改进。不过，目前缺乏确凿数据支撑。以往经验显示，大规模商用前公布的指标，实际表现往往打折扣。

SRAM 缩放停滞

从逻辑上看，晶体管尺寸缩小，由 6 个晶体管构成的 SRAM 单元尺寸与性能也应同步提升。

新思科技嵌入式内存 IP 首席产品经理达里尔・塞策表示：SRAM 缩放停滞，源于经典 6T 位单元触及物理极限与工艺离散性限制。SRAM 位单元设计初衷是追求高密度，但存在读写需求冲突的固有缺陷：访问晶体管与存储晶体管相互制约，二者必须精细平衡并兼容工艺偏差。当几何尺寸持续缩小，偏差对位单元读写特性的影响占比显著放大。

问题不止于此。

Arteris 产品管理高级经理安德烈・博纳尔多指出：工艺节点微缩时，静电控制与随机离散性成为主导约束，阻止单元面积按比例缩小。此外，SRAM 速度已进入平台期，因为连线电阻与位线电容上升，而近期工艺节点的核心电压（Vdd）几乎未降低。逻辑电路可通过器件与布线创新持续缩放，但 SRAM 做不到。

在 2 纳米及更先进工艺上，SRAM 位单元缩放带来的密度提升已不足 15%，远低于 65 纳米到 5 纳米时代每代 50%–100% 的大幅微缩。这种下滑源于先进节点下器件、栅极接触、中层互连（MEOL）、V0/V1 线宽极窄，进一步有效缩放受限于设备与良率。

其直接后果是成本更高、性能更差。

Quadric 首席技术官奈杰尔・德雷戈表示：主要表现为内存密度缩放落后于逻辑电路，每平方毫米门数增长快于每平方毫米兆字节数。同时，线路延迟与物理定律导致访问速度下滑，不过智能架构调整可缓解逻辑电路与 SRAM 速度的依赖关系。

自上世纪 80 年代以来，内存与计算的差距持续扩大。如今计算机性能提升了近五个数量级，但内存带宽提升甚至不到 100 倍，处理器可处理的数据量与实际能获取的数据量之间存在超过 1000 倍的差距。

这不仅是前沿 AI 技术的问题，最终将影响所有设备，甚至小型 MCU 与 MPU，尤其随着 AI 向边缘渗透。

瑞萨电子首席产品营销经理卡维塔・查尔提到：当 SRAM 无法缩放，会占据更大的芯片面积比例，这必须纳入设计考量。同时影响芯片用户，他们需要权衡片内可实现功能与何时切换到外部内存，工艺越先进，成本越高。

关于 2 纳米节点的 SRAM 单元面积是否更优，行业尚无定论。

新思科技嵌入式内存 IP 高级产品经理拉胡尔・图克拉尔表示：近期 SRAM 的收益来自将逻辑微缩技术应用于 SRAM 宏的解码与控制电路，即便位单元未缩放，仍能通过设计创新实现面积优势。未来随着环绕栅极（GAA）技术成熟、器件宽度控制更灵活，有望进一步改善。GAA 晶体管静电控制更好，可降低漏电流、优化读写性能。2 纳米初期的内存面积提升，主要来自解码与数据通路电路中的逻辑器件优化；后续节点有望通过 GAA 晶体管实现位单元面积进一步缩小。

Arteris 的博纳尔多总结：SRAM 缩放放缓标志着系统架构进入拐点。当内存密度增长减速，单纯增加缓存容量在经济上不再高效。

对软件的影响

内存墙对软件的影响广泛，挑战了 “软件生产力是首要优化目标” 的长期理念。

依赖大量本地 SRAM 与多层高速缓存的处理器架构受冲击最大。通用 CPU 无法避开这种重硬件内存架构，因为手机、笔记本、数据中心的 CPU 需要运行随机用户代码，处理非结构化内存访问，同时调度数十个线程。

如今 SRAM 占据更大芯片面积与成本，大型寄存器文件与缓存层级不再免费缩放，给芯片面积、良率、能效与数据搬运效率带来压力。瓶颈从计算密度转向内存架构与互连效率。软件必须假设内存具有更强层级性、速度更不均匀，数据局部性、分块、分区、流量可预测性变得更重要，延迟波动成为系统级性能瓶颈。

AI 同样无法幸免。

随着 AI 模型规模与上下文长度增长，内存带宽与片上缓存成为性能主导因素，大语言模型推理中的 KV 缓存带宽瓶颈尤为明显。因此，软件必须优化数据局部性、内存感知调度、量化、稀疏性与内存分层，因为计算性能提升已无法弥补内存缩放缓慢的短板。

AI 架构存在可利用的差异：AI 引擎（尤其是推理处理器）可长时间处理结构化代码，远长于任务切换的 CPU。智能 AI 架构将内存管理交给离线编译器，由代码显式调度直接内存访问（DMA）传输模型权重与激活值，甚至可打造完全无需数据缓存的 AI 推理引擎，缓解对高速、高功耗 SRAM 的依赖。随着更多负载基于 AI 模型，先进 SoC 可在更大面积上避开 SRAM 密度与速度瓶颈，仅在关键 CPU 子模块保留该设计挑战。

近期 AI 模型的算术强度（处理器在内存数据上执行的运算量）持续下降，导致对内存到处理器的带宽需求更高。

3D SRAM 方案

若 SRAM 无法缩放，用最昂贵工艺制造它便失去意义。行业越来越倾向于将 SRAM 做成小芯片，堆叠在处理器上方。

SoC 设计师正在探索解耦方案：在先进工艺裸片上放置少量 SRAM，满足 CPU/GPU/AI 对 L1、L2 甚至 L3 缓存的核心需求；更大容量的 SRAM（如 L4）则放在上一代工艺裸片上，以获得更低的单晶体管成本。更快的裸片间互连与更精细的间距，让多层内存集成更简单，成本更低且延迟可接受。

但该方案目前成本高昂。

3D 与基于小芯片的 SRAM，因封装成本高、热设计复杂、标准化程度有限，目前仅在高端 AI / 高性能计算（HPC）芯片上具备经济性。面向低成本大众市场的 SRAM 小芯片，短期很难实现。

小芯片方案能以更低功耗提供数量级更高的带宽，是破除性能墙的关键，不仅是 2.5D，更是 3D 集成。

替代方案

每当内存出现问题，总会出现替代 SRAM 的新技术讨论。

新兴内存技术可在特定场景发挥作用，但无法全面替代 SRAM，未来多数系统将使用更多层级的内存，而非更少。

未来系统架构可能彻底改变。

内存内计算、近内存计算是 AI 推动的方向，意味着传统计算模型将发生变化。传统架构围绕巨型计算引擎搭建，需要从附近内存拉取数据。既然 SRAM 缩放已失效，行业将持续转向新型内存；更深层的问题是，现有 SRAM 使用方式是否已触及架构极限。Cerebras 的晶圆级引擎大幅增加片上内存，突破部分约束。

即便如此，单裸片能容纳的模型规模仍有上限，进而引出核心问题：单晶圆能高效完成多少任务？若堆叠晶圆或扩大晶圆，架构能否良好缩放，还是最终遇到同样限制？

内存墙不是一次性障碍，若架构不变，模型每增大一级都会出现新壁垒。因此，设计决策必须聚焦系统可扩展性，从单裸片到多裸片，再到集群。最初是 CPU 集群，之后是小芯片集群，再到板级集群，如今扩展到整机柜作为统一计算资源。在纳米、毫米、厘米、米甚至公里级，每个阶段都会出现新挑战。最终，资源划分与管理方式决定能否突破反复出现的壁垒。

新型嵌入式内存正逐步落地。

例如，磁阻 RAM（MRAM）缩放性好、漏电流低、耐久性强，有望替代 SoC 中的部分嵌入式闪存与 SRAM；阻变 RAM（ReRAM）因集成容易、成本较低，在嵌入式非易失存储领域逐步普及。这些技术可补充但无法替代 L1/L2 缓存中的高性能 SRAM，但可替代部分控制器、MCU 与加速器中的嵌入式内存。

高带宽内存（HBM）显著提升 DRAM 带宽，由多层 DRAM 堆叠而成，底层传统上是面向处理器的裸片间物理层（PHY）。该基底裸片采用面向存储单元而非逻辑的工艺，受限于功率密度与热密度。若将基底裸片切换为逻辑优化工艺，可支持更多功能、提供更高性能。

这样可在 HBM 基底裸片与 GPU 之间实现更高带宽的裸片间接口，利用富余带宽连接更多 HBM，使 GPU 可访问的 HBM 容量翻倍，或用于 I/O 小芯片提供更高外部带宽，或二者结合。

在 SRAM 缩放不再自动受益的时代，架构效率（尤其是互连与一致性层面）成为每平方毫米性能与每瓦性能的核心杠杆。通过智能管理缓存布局与流量行为，缓存可在不按比例增加 SRAM 面积的前提下，获得足够的内存容量与带宽收益。

结论

内存墙越筑越高，短期看不到逆转迹象。SRAM 缩放不太可能重回往日势头，必须寻找替代方案。3D 堆叠将更普及，尤其在成本下降后，但没有万能解药。若高速内存成为计算瓶颈，计算架构必须更高效地利用现有内存。

新闻中心

内存墙越筑越高

评论

相关推荐

技术专区