新闻中心

EEPW首页 > EDA/PCB > 设计应用 > 终极的3D集成将造就未来的显卡

终极的3D集成将造就未来的显卡

作者: 时间:2026-01-16 来源:IEEE 收藏

深入了解AMD或英伟达最先进的AI产品包装,你会发现一个熟悉的布局:两侧被高带宽内存()覆盖,这是市面上最先进的内存芯片。这些内存芯片尽可能靠近它们所服务的计算芯片,以减少人工智能计算中最大的瓶颈——将数十亿比特每秒从内存转化为逻辑时的能量和延迟。但如果你能通过将 叠加在 上,让计算和内存更加紧密结合呢?

最近利用先进的热仿真探讨了这一情景,答案在2025年12月的IEEE国际电子器件会议(IEDM)上给出,颇为严峻。3D叠加会使内部的工作温度翻倍,使其无法使用。但由的James Myers领导的团队并未轻易放弃。他们发现了几项工程优化方法,最终能够将温差降至接近零。

2.5D与3D高级

最初是对GPU和四个芯片进行热仿真,就像今天你会看到的那样,装在所谓的2.5D内。也就是说,GPU和HBM都位于称为中介器的基底上,且两者之间的距离极小。这两种芯片通过数千个微米级铜互连连接连接在介质器表面。在这种配置下,模型GPU功耗414瓦,峰值温度略低于70°C——这是处理器的典型表现。存储芯片会额外消耗大约40瓦,且发热会稍微降低一些。这种液冷技术通过新型AI数据中心中普遍使用的液冷技术,从顶部去除热量。

Imec高级研究员陈玉凯告诉IEDM工程师:“虽然这种方法目前仍在使用,但它在未来扩展性上表现不佳——尤其是因为它阻挡了GPU的两侧,限制了未来GPU之间的连接。”相比之下,“三维方法带来了更高的带宽和更低的延迟......最重要的改进是包装的占地面积。”

不幸的是,正如陈博士和同事们发现的,最直接的堆叠方式——将HBM芯片放在GPU顶部,并在中心加一块空白硅片填补空隙——GPU温度飙升至140°C——远超GPU的80°C极限。

系统技术协同优化

Imec团队开始尝试多种技术和系统优化,以降低温度。他们首先尝试的是扔掉一层现在已多余的硅层。要理解原因,首先你得弄清楚HBM到底是什么。

这种内存形式由多达12个高密度DRAM芯片组成的堆栈。每个都被稀释到数十微米,并用垂直连接线穿透。这些薄化的芯片层叠加,并用小焊球连接,这堆内存垂直连接到另一块硅片,称为基底芯片。底座芯片是一种逻辑芯片,设计用来复用数据——将其压缩到能跨越毫米级间隙与GPU的有限线内。

但现在 HBM 集成在 GPU 上,就不需要这样的数据泵了。比特可以直接流入处理器,而不考虑芯片侧面有多少根线。Myers表示,这一变化意味着将内存控制电路从基础芯片移至GPU中,从而改变处理器的布局。但他认为应该有足够的空间,因为GPU将不再需要用于解复用来解复用的内存数据电路。

去掉这个中间节点后,温度仅降温了不到4°C。 但更重要的是,它应该能大幅提升内存和处理器之间的带宽,这对团队尝试的另一个优化——降低显卡速度——也很重要。

这似乎与提升人工智能计算的初衷相悖,但在此情况下,这反而是一种优势。大型语言模型被称为“内存受限”问题。也就是说,内存带宽是主要的限制因素。但迈尔斯团队估计,在GPU上3D叠加HBM将使带宽提升四倍。有了额外的余裕,即使将GPU时钟降低50%,性能依然能提升性能,同时降温超过20°C。 实际上,处理器可能不需要被大幅减速。迈尔斯表示,将时钟频率提高到70%后,GPU仅提高了1.7°C。

优化的HBM

另一个大幅降低温度来自于使HBM堆叠及其周围区域更导电。这包括将四根烟囱合并为两组较宽的烟囱,从而消除了热量滞留区域;将堆叠顶部(通常较厚)模具变薄;并用空白硅片填充HBM周围空间,以传导更多热量。

在这些条件下,烟囱的运行温度约为88°C。 最后一次优化将温度调回接近70°C。 通常,芯片约95%的热量是从封装顶部带走的,这里是水带走热量。但底部也加入类似冷却,堆叠的芯片最终降低了17°C。

尽管 IEDM 上公布的研究成果证明了 HBM 堆叠 GPU 的可行性,但迈尔斯强调,这未必是最佳方案。“我们正在对其他系统配置进行仿真,以验证这一方案是否为最优解。” 他表示,“业界部分厂商对‘GPU 堆叠于 HBM 之上’的方案更感兴趣”—— 因为这种设计能让 GPU 更贴近散热系统。不过,该方案的设计复杂度会更高,原因是 GPU 的供电与数据传输线路都需要垂直穿过 HBM 堆叠体才能接入。


关键词: Imec GPU HBM 封装

评论


相关推荐

技术专区

关闭