AI芯片的供电挑战
随着人工智能 (AI) 工作负载变得越来越大和越来越复杂,为处理所有这些数据而开发的各种处理元素需要前所未有的能力。但是,在不降低信号完整性或引入热瓶颈的情况下,高效可靠地提供这种电源,已经带来了半导体历史上最严峻的设计和制造挑战。
与通用处理器不同,专为 AI 工作负载设计的芯片将密度推向了极端水平。它们将更多的晶体管封装到更小的封装中,同时还增加了晶体管的总数,通常以小芯片的形式。结果是更大、更密集的系统级封装,其中供电不仅仅是一个电气问题,而且是一个封装、材料和系统集成挑战,从单个小芯片延伸到服务器机架。
“功率在很大程度上由动态功率主导,主要由计算和内存之间的数据移动驱动,”Synopsys 研究员 Godwin Maben 说。“例如,NVIDIA 的 Blackwell 功率范围从 700 瓦到 1,400 瓦不等。这使得高效的总线架构和架构创新(例如数据压缩策略)变得至关重要。
由于在内存和计算单元之间来回穿梭的数据量很大,因此动态能力占主导地位。这些传输使用各种高速互连跨海量内存层次结构进行。但是,移动所有这些数据是有代价的,会产生级联设计约束,从内存层次结构决策一直延伸到供电网络 (PDN)。
“当我们转向背面和 3D 堆叠时,热量变得更加局部化且更难消散,”imec 研发副总裁 Julien Ryckaert 说。“这种物理压缩加剧了电迁移和局部热热点等挑战。”
为了在这些级别上易于处理电力传输,多学科设计团队必须全面考虑电压的调节位置和方式、热量的提取方式、材料在大电流应力下的行为方式,以及它们在电迁移和 IR 压降影响可靠性之前有多少裕量。这些设计决策的复杂性要求 EDA 工具、制造工艺和先进封装之间更加紧密地耦合。
“今天,高性能计算和 AI 加速器已经跨越了千瓦级的界限,”Synopsys 首席架构师 Jay Roy 说。“设计复杂性的爆炸式增长和周期的缩短给半导体 SOC 设计带来了持续的挑战。”
这种在最大限度地降低功耗的同时扩展性能的推动迫使电力输送模式发生重大变化。这不再只是减少阻力。它涉及对具有不同膨胀系数的材料之间的感应行为、热梯度和耦合进行建模。现在,对电压降、电流瓶颈和热热点的早期预测至关重要,并且必须在实际布局和集成约束的背景下进行。
从横向到垂直供电
再多的仿真都无法解决传统横向供电的固有局限性。在封装和印刷电路板上横向布线大电流电源走线会带来不再扩展的损耗和空间限制。当芯片消耗 100 或 200 瓦时,这种方法是可行的,但现在它已成为现代 AI 硬件的限制因素。
“当前的加速卡通常采用横向供电架构,从电源模块到处理器,在几厘米长的 PCB 走线上路由数千安培的电流,”Saras Micro Devices 首席商务官 Eelco Bergman 说。“由于大电流和走线电阻,这种方法会导致大量的功率损失和过多的热量产生。此外,可用于支持不断增长的总功率、电源轨数量以及关键高速信号路由的电路板空间是有限的。
图 1:垂直供电网络,显示直接嵌入封装基板中的多域电容器模块。来源:Saras Micro Devices
在这些功率水平下,每一毫欧姆电阻都转化为必须消散的瓦特热量。此外,横向布线施加的空间限制通常会在电源完整性和信号完整性之间造成权衡。在高带宽系统中,数百个高速 SerDes 通道与密集的电源层共享电路板空间,这些权衡变得站不住脚。
为了克服这些限制,半导体行业越来越多地探索垂直供电。通过将电源轨或稳压器直接嵌入芯片下方,并用低阻抗路径垂直连接它们,从源极到硅的距离大大缩小。其结果是减少了 IR 压降和噪声,同时为关键信号释放了顶部路由。
Bergman 补充道:“我们看到客户正在积极探索具有嵌入式电压调节和集成电容解决方案的垂直供电架构,这些解决方案可以本地化供电。“这些方法释放了顶部 PCB 空间,减少了寄生损耗,并提高了整体供电性能。”
在衬底和中介层中使用集成的供电层,以及局部去耦,使 AI 小芯片和加速器能够获得更清洁、更稳定的功率,同时减少衰减。先进的衬底,包括那些带有嵌入式无源器件的衬底,现在正在与硅本身共同设计,以优化阻抗曲线和散热。
同时,这些技术也带来了新的可靠性挑战。通过新材料和垂直结构提供大电流需要对电流拥挤、热循环和材料疲劳进行严格的建模。嵌入式功率元件必须能够承受强热通量,同时还要与敏感信号层保持电气隔离。这反过来又推动了介电材料、沉积技术和协同设计方法的创新。
先进的封装和散热
高功率密度直接转化为热密度,这可能会导致热点,从而降低可靠性并降低性能。如果没有先进的热提取技术,即使是最高效的系统也需要热节流,这会大大降低性能。
“如今的先进封装采用多尺度热管理技术来有效地传播和去除热量,”Amkor 小芯片和倒装芯片球栅阵列 (FCBGA) 业务部高级总监 Gerard John 说。“铟合金 TIM 因其约 80 W/m-K 的高导热性而特别有效。然而,铟 TIM 需要芯片背面和盖子底面的金属化,通常使用 Ti/Au 或 Ni/Au 等材料。回流焊工艺对于在芯片和盖子之间形成粘合是必要的,这有助于降低界面阻力。
最小化芯片和散热器之间的热阻取决于材料和应用技术。均匀的 TIM 覆盖率和低空隙率加工对于实现整个芯片的一致散热至关重要。传统的基于焊料的 TIM 正在被高性能金属合金、相变材料和新型碳基界面所取代或补充。
“确保 TIM 应用中的最小空隙至关重要,”John 说。“空隙会严重阻碍导热性,导致热点和器件可靠性降低。监测 TIM 空隙对于工艺优化和设备筛选至关重要。
这些解决方案通常是针对特定工作负载量身定制的。例如,AI 训练产生的持续功率爆发比推理更长,并且需要不同的热瞬态响应。包装工程师必须与系统架构师合作,以确保冷却解决方案与实际作配置文件相匹配。
“TIM 的选择通常基于设备功率图,这些图显示了高热量产生区域,”John 指出。“通过将 TIM 属性与这些映射相匹配,可以实现最佳热管理,确保整个器件的高效散热。”
在多芯片系统中,热逻辑模块的接近会放大热挑战。先进的设计正在转向均温板、微流体冷却和双面热提取来管理这种复杂性。每种方法都引入了新的制造、可靠性和材料集成障碍,但它们正迅速成为大规模实现 AI 性能的重要工具。
钼和材料迁移
随着 AI 加速器需要更大的功率和更紧密的集成,传统的前端材料正在显现其老化。钨和铜广泛用于局部互连和触点一直是其导电性和可制造性的行业标准,但现在它对芯片最致密的部分施加了限制。
这就是钼成为关键替代金属的地方。钼的电子平均自由程比铜短,在狭窄几何形状中的可扩展性比钨好,在先进节点的电阻率和可制造性方面都有了明显的改善。
“从传统的钨金属化过渡到钼提供了实质性的性能改进,包括将接触电阻降低多达 50%,”Lam Research 公司副总裁兼总经理 Kaihan Ashtiani 说。“钼的电子平均自由程较短,使其更适合更小的尺寸,显著减少了紧密排列的互连结构中的电阻问题。”
这在实践中意味着钼在局部互连中变得特别有利,其中线宽和间距现在低于 20nm。在这些尺寸下,钨等传统金属的电子散射增加,从而导致更高的有效电阻率和热负荷。相比之下,钼在受限几何形状中保持良好的导电行为。
对于 AI 设备,此属性至关重要。随着更多的功能被封装在更小的平方毫米中,以及垂直堆叠变得越来越普遍,热量和电阻越来越局限。钼等材料创新通过提高电气性能并简化与原子层沉积 (ALD) 和化学气相沉积 (CVD) 工艺的集成,帮助减轻这些影响,这些工艺在尖端晶圆厂中已经很常见。
“当互连尺寸缩小到铜等金属的平均自由程以下时,由于电子散射更频繁,电阻会增加,”Ashtiani 说。“在这些情况下,像钼这样的金属,具有较短的平均自由程,实际上变得更有利,因为它在较小的尺度上保持较低的电阻。”
向钼的转变也与更广泛的行业努力降低电迁移风险相一致。在 AI 工作负载中常见的高电流密度下,金属迁移会随着时间的推移产生空隙和开路,这是对可靠性的日益关注的问题。钼的高熔点和晶粒稳定性有助于抵消这一点,使其成为长寿命 AI 计算应用的有力候选者。
虽然尚未普及,但钼的采用正在加速,尤其是在 GPU 矩阵引擎和 SRAM 阵列等功率密度极高的应用中。它还在包含背面供电的设备中越来越受欢迎,其中金属化层的复杂性需要高度保形和低电阻率的材料。
背面供电
也许当今芯片架构最具变革性的转变是转向背面供电网络 (BSPDN)。BSPDN 不是通过争夺空间的顶部金属层来路由电源和信号,而是通过在晶圆的底部引入电源连接来解耦这些功能。
最初的概念最初由 Intel 宣传为“Power vias”,此后演变为整个行业采用的更广泛的技术类别。从本质上讲,晶圆的背面被蚀刻以露出触点,然后用于直接向晶体管供电,绕过信号路由堆栈并显着提高效率。
“背面供电始于将电源过孔蚀刻到硅中,以提供从背面直接供电,这有助于降低阻抗,”imec 的 Ryckäert 说。“从两侧处理晶圆为器件扩展和布线密度开辟了新的机会,尽管由于去除了作为散热器的硅,它也带来了热挑战。”
这种结构重组为 AI 芯片提供了几个关键优势。首先,通过分离电源和信号布线,工程师在布局规划和时序优化方面获得了更大的灵活性。信号层可以扩展或微调,而无需担心功率分配限制。其次,它使电网更薄、更均匀,从而减少了 IR 压降,使电压调节更具可预测性。
“电力输送曾经是众多考虑因素之一,”Ryckaert 补充道。“现在它塑造了整个平面图。背面 PDN 有助于缓解布线拥堵并实现更高的晶体管密度,但它们也增加了功率密度,这使得热管理比以往任何时候都更加重要。
此外,背面加工引入了新的冷却选项。由于硅衬底不再是散热的屏障,因此设计人员可以实施双面冷却策略,其中热界面应用于芯片的两侧。
然而,反向供电并非没有挑战。它需要全新的工艺流程和材料进步,包括晶圆减薄、硅通孔 (TSV) 对准、混合键合和处理极其脆弱的芯片。这些结构的机械可靠性仍在研究中,产量优化仍然是大批量采用的障碍。
设计协同优化和系统级影响
尽管背板电源、钼互连和垂直 PDN 的技术前景广阔,但这些进步都不是孤立发生的。下一代 AI 芯片将需要在整个设计堆栈中采用更紧密集成的方法,使用通常所说的系统技术协同优化 (STCO)。
在此模型中,芯片架构师、封装工程师和系统设计人员从最早的设计阶段开始协作。输电网络、热分布、机械应力和平面图必须建模为相互依赖的系统,而不是流程中的连续步骤。
“功耗感知协同设计越来越重要,”Synopsys 的 Maben 说。“它有助于平衡热性能与时序收敛,使客户能够在最终产品中实现更高的效率和可靠性。”
在系统级别,这些优化具有广泛的后果。例如,热节流是 AI 芯片性能面临的最大威胁之一。如果没有对局部加热进行有效预测和缓解,否则设计良好的系统在现场可能会表现不佳。
“上游输电效率的边际提高可以防止下游的热降解,”Synopsys 的 Roy 说。“目标是让工程师及早了解这些系统如何交互,以便可靠性是内置的,而不是附加的。”
这的影响远远超出了模具。系统集成商必须考虑整个堆栈(芯片、中介层、基板和 PCB)的 PDN 阻抗。信号完整性、板级去耦和外壳级气流都会影响高能效芯片在实际应用中是否按预期运行。
这些约束提高了协同仿真和跨域反馈循环的重要性。电压完整性和电磁干扰 (EMI) 现在与热仿真、材料建模和功耗感知验证直接交叉。作为回应,一些芯片制造商正在将封装和系统工程团队引入内部,或将他们嵌入芯片设计团队,以加快迭代并确保一致性。
除了技术协调之外,经济激励还推动了协同优化。通过添加多余的电容、更宽的电源层或过度设计的 VRM 来过度配置供电系统会消耗电路板面积和资源,否则这些资源可能会用于计算。
“减少 IR 压降和提高输电效率直接转化为更少的热量和更低的冷却成本,”Saras 的 Bergman 说。“这是超大规模数据中心的直接成本优势。”
结论
随着 AI 需求的增长,优化每一瓦特和交付它所花费的每一美元的压力只会越来越大。这意味着电力输送不再是后端考虑因素。它已成为塑造 AI 芯片设计和制造方式的一线约束。随着 AI 芯片进入千瓦级市场,该行业必须重新考虑从材料到平面图、晶圆键合到散热的方方面面。背面供电网络、钼互连和垂直集成基板等创新只是一个开始。
AI 芯片的供电之路需要跨学科的深度合作。随着工程师面对下一代电力输送的多物理场性质,围绕硅、封装和系统设计构建的孤岛正在瓦解。虽然这些解决方案的成本和复杂性很高,但以性能、效率和可扩展性衡量的回报将是巨大的。
评论