HBM 测试向左(前端)迁移,保障 AI 芯片良率
更高的高带宽内存(HBM)堆叠与更密的硅通孔(TSV)节距正在影响 AI 模块良率。解决方案是将测试在制造流程中进一步左移(更前端工艺),但这种迁移也伴随着成本上升。
HBM 是 AI 系统的核心组件,随着需要处理与存储的数据量持续增长,AI 系统对内存的需求近乎无限。过去十年,HBM 堆叠的裸片从 2 层增至 12 层,很快将达到 16 层。与此同时,AI 数据中心内多裸片封装中的 HBM 堆叠数量也从 4 组增至 8 组。
如今,HBM 裸片成本已接近 AI 芯片总成本的一半。因此在最终测试中发现内存堆叠缺陷,意味着极高的损失,这也是行业愈发重视 已知良好堆叠(KGS)的原因。然而,裸片堆叠是一项精密且复杂的制造工艺:硅通孔(TSV)与微凸块的对准精度以微米计;晶圆减薄与切割产生的机械应力会加剧裂纹、滑移与划痕;热压键合还可能导致开路、短路、枕形缺陷及高阻连接。
更棘手的是,检测这些实际与潜在缺陷难度极大。堆叠裸片测试需要在测试覆盖率、测试时间、机械操作、热管理与供电之间取得平衡。尽管工程团队可通过可测试性设计(DFT)与多工位并行测试降低测试成本,但堆叠高度与高功耗带来了严峻的热管理难题。随着 HBM4、HBM5 到来,所有这些挑战将进一步加剧。
新思科技(Synopsys)SLM 产品管理总监 Faisal Goriawalla 表示:“超大规模厂商数据显示,HBM 故障是数据中心 GPU 失效的首要原因。研究同时表明,由于复杂的垂直堆叠结构,HBM 比传统 DRAM 更易出现故障,列故障(如 TSV 缺陷)尤为常见。从 HBM3 向 HBM4 过渡需要进一步完善多裸片支持能力。2048 位内存接口要求大幅增加穿过内存堆叠的 TSV 数量,这意味着随着微凸块总量显著增加,外部凸块节距必须进一步缩小。此外,支持 16 层 TSV 堆叠,也为在更多 DRAM 裸片间实现无缺陷布线带来新的复杂性。”
这就要求在制造流程更早阶段增加测试,让缺陷堆叠在封装前就被筛除。目前,生产可出货的 HBM 堆叠裸片需要在晶圆级与堆叠裸片级进行多次测试。HBM 逻辑裸片与 HBM DRAM 裸片均需经过晶圆测试,每颗 DRAM 还需经历多轮测试 —— 晶圆级老化、高低温测试与修复,之后 DRAM 晶圆会被减薄、凸块、切割,再堆叠到逻辑基底裸片晶圆上,并进行一系列测试。根据封装厂工艺,可在每颗 DRAM 裸片堆叠后测试,或在堆叠 2 层、4 层后测试,最终堆叠晶圆被切割成单颗。

图 1:HBM 已知良好堆叠的通用制造测试流程,对比切割前与切割后工艺流程。来源:Teradyne
测试左移:成本与良率的必然选择
随着单颗裸片或单个堆叠失效成本攀升,测试左移的呼声愈发强烈。
Aehr Test Systems 销售与营销执行副总裁 Vernon Rodgers 指出:“一切都归结于成本。减少报废、提升良率、降低损耗的需求主导了测试方案选择。过去测试左移成本过高,但如今良率成本曲线正持续推动测试向左迁移。以晶圆级老化为例,它能降低早期失效相关缺陷。随着单堆叠裸片数量增加、封装尺寸变大,这一点愈发重要。”
FormFactor 高级产品营销总监 Kevin Tran 表示:“随着 HBM 器件复杂度与成本上升,测试内容持续向流程前端迁移。这种左移有助于防止缺陷裸片进入昂贵的堆叠工艺,并推动晶圆测试中高速测试、更宽并行度与更严格热控制的应用。”
晶圆测试与老化
实现已知良好堆叠(KGS)的前提是已知良好裸片(KGD)。对每颗 DRAM 与逻辑基底裸片进行全面晶圆测试,需要覆盖内部电路、核心内存与 TSV。
DRAM 需要数千种针对内存架构的测试图形。由于位单元密度高,冗余替换在测试过程中至关重要,否则晶圆级良率将大幅下降。测试图形由自动测试设备(ATE)提供,为降低成本,DRAM 裸片通常以64~128 工位并行测试。
行业专家强调逻辑基底裸片测试的重要性,因为它是访问堆叠中内存裸片的唯一通道,对堆叠裸片良率影响极大。Aehr Test 的 Rodgers 说:“以堆叠结构为例,1 颗逻辑基底裸片搭配 8~16 层 HBM。确保基底逻辑裸片质量至关重要,一旦它失效,16 层裸片都将报废,对良率曲线影响巨大。”
逻辑基底裸片测试重点针对 DFT 电路,支持堆叠过程及全生命周期内的 HBM DRAM 测试。该测试基于 JEDEC 标准的直接访问(DA)或 IEEE 1500 标准,仅需少量焊盘或微凸块。在逻辑晶圆测试中施加测试内容,可确保内部逻辑、IEEE 1500 电路、直接访问总线、内存内置自测试(MBiST)、内部电路、TSV 连接与 PHY 电路无缺陷。
然而,每一代 HBM 都使晶圆探针测试挑战加剧。
FormFactor 的 Tran 表示:“在先进 DRAM 工艺节点(尤其 HBM 所用节点),晶圆级测试不再局限于接触与功能筛选,而是演变为覆盖机械、供电、信号完整性与吞吐量的多维挑战。焊盘尺寸缩小可通过先进 MEMS 探针技术解决,实现更密节距与更高对准精度。HBM4、HBM5 的新速度与功耗要求,未来数据传输速率将超 10Gbps,单 HBM 堆叠功耗高达 100 瓦。MEMS 探针还具备更高载流能力,结合优化的探针卡级供电设计,可满足 KGD 测试的高功耗、高速需求。”
典型 DRAM 测试流程包含晶圆级老化,加速潜在缺陷显现,以便开展标准测试。Aehr Test 的 Rodgers 说:“老化解决两个问题:一是筛选弱器件,如栅氧化层缺陷;二是位单元本质是电容,需要稳定其数值。长期争议在于应在晶圆、切割裸片还是封装阶段进行老化。但进入堆叠时代后,测试左移成为必然,这正是晶圆级老化的核心驱动力。”
晶圆级老化的接触方案需要应对测试访问焊盘 / 凸块的机械挑战,300mm 晶圆可采用 MEMS 技术或微型弹簧针实现。
结合 DFT 与铝测试焊盘探针有助于降低测试成本。JEDEC 标准在 HBM I/O 微凸块布局中预留了专用测试焊盘空间。
Rodgers 指出:“使用专用测试焊盘并合理布局,可大幅降低探针卡成本,无需采购 50 万美元的探针卡,最多可节省 80% 成本。DFT 保障质量,更实现了低成本晶圆级老化方案,可以选择微型弹簧针替代 MEMS,提供两种成本差异显著的技术方案,而 DFT 决定最终采用哪种成本方案。”

图 2:HBM 堆叠故障检测的示例,该检测是修复 TSV 连通性所必需的环节。来源:新思科技(Synopsys)
堆叠测试
堆叠裸片测试可降低 AI 产品最终测试的良率风险。如前所述,标准制造与测试流程先在晶圆级基底裸片上堆叠 HBM,再通过测试接口探针晶圆背面,多工位测试为标配。但裸片堆叠在热管理、供电与机械操作方面存在挑战,且测试插入次数增加使测试成本控制愈发困难。12 层堆叠裸片的测试插入次数可达 3~12 次,具体取决于封装厂质量水平。
FormFactor 的 Tran 表示:“DRAM 裸片堆叠可能引入新的误差,包括堆叠内部高速传输、更高堆叠的功耗与电流需求增加,以及相关热挑战。堆叠裸片测试与分拣可尽早筛除不良裸片,降低整体测试成本。堆叠裸片测试需要微米级对准精度,HBM5 最高支持 16 层堆叠,对准精度对满足 TSV 与键合公差至关重要。”
其他专家强调封装过程中中间测试的重要性。
Amkor 全球测试服务副总裁 Omer Dossani 说:“随着 HBM 成本持续上涨,封装过程中的中间测试愈发关键。为此,行业正在开发新的接触机制,实现中间阶段可靠测试。这些挑战在工厂规模化量产(HVM)阶段基本解决,但仍是重要制造考量,需要严格控制测试温度稳定性,使用专用插座、清洁材料,并强化全流程数据监控。”
测试方案始终需要考虑供电与热管理,而堆叠高度增加使问题复杂化。Aehr Test 的 Rodgers 比喻:“16 层建筑外侧受日照,中心却无法受热;堆叠裸片则相反,外侧可冷却,但中心热量如何散出?在堆叠裸片老化或测试中,中心裸片的热管理至关重要。”
Teradyne的 Hanh Lai 表示:“问题在于如何管理器件散热,探针台需要为 HBM 堆叠散热。目前我们的测试设备可根据引脚数与功耗需求,最高并行测试 128 颗器件。从 HBM3 到 HBM4,功耗可能提升超 2 倍。探针台与探针卡厂商面临的挑战是为这些高功耗器件散热。”
切割后裸片测试是在与最终 AI 芯片进行 2.5D 集成前颇具吸引力的左移测试方案,相比全晶圆测试的被动热控制,它支持主动热控制,提供更精准的测试温度。切割后堆叠测试方案涉及多项技术:堆叠裸片载体、上下料设备、堆叠裸片机械手与主动热控制。这些方案成本均不低,且需要开发适配规模化量产(HVM)的解决方案。
当前堆叠裸片测试采用切割前方案,探针逻辑基底裸片背面的铝焊盘(微凸块布局中预留指定空间)。因此,自动测试设备(ATE)需要具备测试逻辑与内存的能力,且最高 128 测试工位并行测试对供电需求极大。
DRAM 堆叠到基底裸片后,可通过逻辑基底裸片的 MBiST(通常可编程)或直接访问总线测试核心内存,每轮测试插入都会修复缺陷 TSV。
新思科技的 Goriawalla 表示:“SoC 设计人员必须部署灵活的 BiST 引擎,支持不同算法,在高覆盖率与测试时间之间权衡,适配不同场景(制造测试、开机自检 POST、系统内调试诊断)。该引擎必须可编程,处理不同延迟、地址范围与测试时序,适配不同 DRAM 厂商。可能还需要支持 HBM DRAM 的封装后修复(PPR),避免现场服务的高昂成本。BiST 引擎的诊断必须精准,检测到 DRAM 堆叠缺陷时,需准确上报失效库、行地址、列地址等信息。”
结论
尽管 HBM DRAM 厂商可收取溢价,但它们仍聚焦低成本。泰克内存事业部产品营销经理 Hanh Lai 说:“内存厂商的理念是测试方案必须优化、低成本 —— 这一点比产品生命周期短的 SoC 厂商更为严苛。HBM 厂商身处竞争激烈的市场,历史上利润率较低,需要长期经营。”
尽管如此,报废带来的经济压力正推动 HBM 堆叠裸片厂商在流程更早阶段增加测试,这必然会提高测试成本,但可通过基底裸片上的灵活 MBiST 抵消,实现测试内容权衡。然而,高并行度堆叠裸片测试对自动测试设备(ATE)供电与热管理方案提出更高要求。最后,切割后堆叠测试仍具前景,但其经济效益尚未得到验证。












评论