为什么存内计算对边缘AI如此重要
在流行媒体中,“AI”通常意味着在昂贵、耗电的数据中心中运行的大型语言模型。但是,对于许多应用程序,在本地硬件上运行的较小模型更适合。
自动驾驶汽车需要实时响应,没有数据传输延迟。医疗和工业应用通常依赖于无法与第三方共享的敏感数据。但是,尽管边缘 AI 应用程序可以更快、更安全,但它们的计算资源要有限得多。它们没有 TB 内存占用或有效无限的功率。
对于数据中心来说,可能有些抽象的约束对边缘人工智能施加了硬性限制。在 2025 年 IEEE 国际内存研讨会的一篇特邀论文和随后的预印本中,ETH 计算机科学教授 Onur Mutlu 和他的同事指出,在典型的移动工作负载中,将数据移入和移出内存占总能耗的惊人 62%。内存是硬件空间的最大用户,但内存延迟通常是执行时间的最大贡献者。
多年来,设备扩展一直是降低功耗的关键,但现在却使问题变得更糟。Mutlu 说,高度规模的 DRAM 不太稳定,需要更频繁的刷新周期。大型内存阵列更难访问,因为带宽增长速度不如内存组本身。
内存中和近内存计算提供了可能的解决方案。即使是商用现成的 DRAM 也可以执行原始数据复制、初始化和按位逻辑作,前提是软件基础设施支持它们。
混合解决方案结合了 RRAM、铁电
体然而,DRAM 刷新功率的问题仍然存在。在神经网络模型中,训练和推理任务都会重复使用存储的权重矩阵。不过,两者有截然不同的要求。
正如 CEA-Leti 的 Michele Martemucci 及其同事所解释的那样,训练任务涉及对权重矩阵的许多小更新,因为它逐渐收敛到一个稳定的值。这些任务需要具有高写入耐久性和存储精确值的能力的内存。相比之下,推理使用稳定、不变的权重矩阵,但可能会多次将其应用于输入数据。推理任务受益于具有高读取耐久性的非易失性存储器。在这两种情况下,近内存计算都需要与标准CMOS逻辑工艺兼容的器件。
RRAM 是简单的器件,依靠在氧化层中形成的导电丝来实现非常高的读取耐久性。通过精心设计的编程方案,它们可以存储模拟值,从而减小内存阵列的大小。根据 Martemucci 的说法,RRAM 已经足够成熟,可以在边缘推理情况下进行商业部署。
不幸的是,RRAM 的写入耐久性相对较低。随着时间的推移,编程脉冲会模糊存储值之间的电阻差。设计人员通常使用传统硬件训练模型,然后将预先计算的权重加载到 RRAM 阵列中。然而,在许多应用中,边缘设备需要能够“学习”。要么需要针对用户的特定要求进行训练,要么需要修改模型以反映实际过程中的变化。
同时,铁电电容器支持非常快的开关和非常高的写入耐久性。它们可以轻松忍受训练任务中遇到的频繁写入作。然而,虽然存储值是非易失性的,但读取作是破坏性的。Martemucci 说,这些设备不适合长期存储权重矩阵,也不适合需要频繁读取作的推理任务。
将铁电晶体管整合到 CMOS 工艺中非常复杂,需要高温工艺和额外的掩模层。铁电电容器和隧道结要简单得多,允许多个研究小组将 RRAM 和铁电结构结合起来。例如,在今年的 VLSI 技术研讨会上展示的工作中,SK 海力士的研究人员展示了一种同时具有电阻和铁电开关的混合铁电隧道结 (FTJ)。
在传统的 FTJ 中,顶部和底部电极之间的隧道势垒取决于铁电极性。SK 海力士器件在两个电极之间夹有铁电铪氧化锆 (HZO) 层,钽层用作氧空位储层。钽层附近的导电丝在器件顶部提供欧姆传导,从而减少了铁电隧道势垒的有效厚度。这些器件实现了精确的模拟乘法累加运算,效率高达每瓦 224.4 万亿次运算 (TOPS/W)。
在另一种混合方法中,Martemucci 的团队结合了硅掺杂的 HfO2带有钛除氧层的电容器采用标准 CMOS BEOL 工艺。这些器件最初表现为铁电电容器,其中一些接收一次性“唤醒”脉冲以稳定铁电响应。与此同时,电容器阵列的另一部分经历了一次性的“成型”过程,产生了氧空位的导电丝。钛层充当氧空位储罐,防止细丝溶解。然后,生成的忆阻器器件可以在高电阻和低电阻状态之间切换。

图1:金属-铁电-金属堆栈既可以用作FeCAP也可以用作忆阻器。来源:CEA-Leti/知识共享许可
铁电电容器充当二进制元件,存储用于训练计算的高精度权重。忆阻器以足够的精度存储模拟权重来执行推理任务。在训练作过程中,忆阻器阵列每百步输入一步后更新,而铁电阵列则不断更新。为标准数字识别任务训练此结构的写入作总数比忆阻器耐久性小 17 倍,比铁电电容器耐久性小 75 倍,同时消耗的能量比连续更新忆阻器阵列所需的能量少 38 倍。
比神经网络更适合人工智能虽然内存计算可以使传统的神经网络计算更加节能,
但它也促进了替代建模方法。例如,许多具有计算挑战性的问题可以建模为伊辛格镜,其中一组连接的节点共同演化到最小能量状态。 此类现实世界的问题可能涉及数千或数百万个连接。
解决伊辛玻璃问题是量子计算更有趣的潜在应用之一。更传统的是,在去年的 IEEE 电子器件会议上,德克萨斯大学研究员 Tanvir Haider Pantha 和他的同事提议构建一个 3D 结构,将 FeFET 纳入 CMOS 逻辑过程的 BEOL。每个节点由四个交叉耦合的 FeFET 组成,可以存储一个有符号的模拟值,映射到所解决问题的伊辛耦合矩阵。每个节点的输出是其邻居节点的输入,在整个网络中建立振荡,并最终达到稳定的最小能量配置。

图2:四个交叉耦合的双门FeFET形成相变纳米振荡器。所提出的伊辛玻璃模型每个节点使用其中一种结构。资料来源:IEDM
内存计算需要新的框架传统的
CPU 和 GPU 是通用设备。只需更改软件,它们就可以应用于许多不同的问题。近内存和内存加速器目前与其预期任务密不可分。伊辛玻璃求解器、点云网络和图像识别网络将以不同的方式处理其数据,需要不同的硬件设计。根据 Mutlu 的说法,内存计算的下一步将需要可以重新映射内存访问以满足特定问题要求的软件框架。反过来,这些框架将需要能够独立于外部内存控制器进行自我管理的内存硬件。









评论