AI 加速器测试高度依赖 DFT 设计可测性技术创新
AI 加速器普及重构半导体测试流程,要求增加测试插入节点、深化故障分析,并在器件全寿命周期内持续状态监测。
AI 加速器是专为神经网络、机器学习、生成式 AI 并行计算打造的软硬件定制平台。这类多芯粒模组支撑自动驾驶、机器人及半导体芯片自适应测试等场景的实时运算。可测性设计(DFT) 技术正快速迭代,着力解决几大痛点:裸片间测试向量高速传输、测试平台热控与散热优化、以及针对 AI 芯片高功耗、高温、全天候负载特征的新型应力测试方案开发。

图 1:2.5D/3D 封装架构中,裸片间接口验证与测试至关重要。来源:泰瑞达 Teradyne
AI 模组测试相比传统 SoC 测试难度陡增,核心原因包括:
超高电流密度带来散热隔离与热点抑制难题;
先进制程、TSV 硅通孔、混合键合等互连结构催生全新失效模式;
裸片间接口缺乏常规测试通路,亟需 DFT 创新完成故障测试、调试与修复。
西门子 EDA 3D-IC DFT 与良率技术总监 Quoc Phan 表示:“AI 加速器架构极度复杂、并行度极高,大幅增加 DFT 测试向量生成与功耗管理难度。同时片上及外置内存带宽达 TB/s 级别,给量产测试的可控性与可观测性带来巨大挑战。传统测试方法难以覆盖新型失效模式与裸片间互连故障,必须依托创新 DFT 方案。”
正因如此,芯片厂商愈发倚重功能测试。爱德万测试高管在专业文章中指出:结构测试只能孤立检测单内核缺陷,而功能测试可跨内核、跨芯粒、跨内存做行为分析,是识别微弱缺陷与工况临界异常的核心手段。多裸片封装想要达到目标测试覆盖率与品质标准,行业普遍思路是将尽可能多的功能测试前置到晶圆探针测试阶段。

图 2:多裸片集成良率压力推动功能测试左移前置。来源:爱德万 Advantest
新思科技首席产品经理 Faisal Goriawalla 表示:“单颗裸片测试与多裸片测试的目标一致,都是尽早筛除缺陷器件。区别在于多裸片封装必须坚持仅使用已知合格裸片进行组装,降低后续调试成本与现场失效风险。”
安靠 Amkor 制造测试高级总监 Vineet Pancholi 指出:“先进封装内部复杂度提升数个量级,且客户定制化封装方案越来越多。AI ASIC 瞬时电流可达 1200A,后续将升至 2400A;测试系统需按常规工况2 倍应力做可靠性考核,因此测试过程的热管理至关重要。”
这要求测试系统具备高精度电源控制、快速电流钳位、接触电阻在线监测等能力。
AI 芯片由大量重复计算内核与多层存储架构构成。爱德万产品线业务开发经理 Daniel Simoncelli 解释:“同类芯粒无需向上万组引脚重复下发相同向量数据,可通过自研流式网络架构 SSN 配合 PCIe 高速传输,由芯片内部自主分发测试数据至各内核,大幅减少冗余传输。同时支持片上自比对,无需测试仪逐帧校验,显著提升测试效率。”
安靠 Pancholi 认为,AI 加速器量产测试主要聚焦三大维度:芯粒硅基模块、裸片间互连、封装级电气 / 逻辑 / 热性能。AI 逻辑模块普遍内置扫描测试结构,可在晶体管层级做结构性缺陷检测,流程与其他先进逻辑芯片一致。EDA 流程自动生成测试向量,故障模型覆盖传统固定型故障、现代全速跳变延迟与路径延迟故障,应用于晶圆探测及封装终测环节。
掌握封装内每颗裸片的详细测试数据,可实现芯粒性能匹配优选。proteanTecs CEO Shai Cohen 表示:“多裸片常来自不同晶圆厂与封测厂商,故障追责与良率管控并无简单解法。但借助遥测片上监控技术,可把裸片内部及裸片间接口的可视性提升 10 倍以上。在切割测试阶段即可筛除缺陷裸片,避免无效封装;还可从性能、功耗、良率维度优选互补匹配的芯粒组合。”
片上遥测监控最早用于静默数据损坏(SDC) 检测。这类罕见故障仅在特定环境应力与负载条件下触发,如同大海捞针。同时遥测还可评估器件老化程度、预估剩余使用寿命,支撑数据中心预防性维护。
故障并非只来源于芯粒本身,芯片与中介层间成千上万甚至数百万级互连同样易出问题。
泰瑞达半导体测试产品营销高级总监 Jeorge Hurtarte 强调:
“硅中介层 TSV 硅通孔的功能完整性至关重要。行业常只关注裸片本身,却忽视中间互连层。需从 DFT 角度为 TSV 植入可测性设计,嵌入智能检测机制,兼顾直流与交流测试完整性,提升信号完整性与噪声隔离能力。”
AI 加速器催生全新失效模式
西门子 EDA Quoc Phan 分析:“高速高密度场景下,传统固定故障模型无法覆盖信号完整性、串扰、桥接故障、微小延迟缺陷;邻近互连走线还会加剧噪声干扰。此外堆叠裸片会随时间产生机械与热接触类退化缺陷,需要持续在线监测与系统内测试。在此背景下,I/O 与通道修复能力成为绕开局部缺陷、提升良率的核心手段。”
安靠测试业务开发高级总监 Scott Carroll 认同:AI 模组大量新型失效,根源集中在硅缺陷、封装缺陷、热致性能衰减三大类。
功耗感知 ATPG 自动测试向量生成可缓解特定外部失效诱因。新思科技 Goriawalla 解释:功耗是失效重要诱因,若 ATPG 向量生成阶段未精准管控功耗,会引发 IR 压降超标、超出正常工作功耗预算,造成误判失效与良率损失。ATPG 向量翻转率极高,极易触发这类问题。
裸片间通信接口测试
裸片间接口分两类,DFT 需求各不相同:
1. 逻辑 — 逻辑接口:基于 PHY(如 UCIe)或通用低速 GPIO;
2. 逻辑 — 内存接口:如 HBM PHY。
接口协议、带宽、主次边带划分、冗余通道设计各不相同,给 DFT 与 SoC 设计师带来极大挑战,难以统一完成跨接口测试、修复、向量生成、硅片调试与诊断。
传统 JTAG 难以满足系统在线测试,行业普遍采用 APB 高级外设总线作为片上可控可观测通路。即便现有 IEEE 1149.1/1500/1687/1838 及 JEDEC 接口 IP 标准,仍存在覆盖缺口。
新思科技与台积电 2023 年合作,基于 CoWoS 封装打造多裸片参考流程,实现芯片全生命周期的监控、测试、调试与修复,堆叠裸片无需牺牲测试覆盖率或向量冗余膨胀。方案分别基于 UCIe 接口实现系统级监控 SLM、测试调试修复,以及基于 IEEE 1838 标准的 GPIO 接口实现同类能力。

图 3:新思 — 台积电联合验证平台框图,复用 UCIe PHY 片上资源,支持完整测试、调试与修复。来源:新思科技
该方案覆盖键合前、键合后量产测试、上电应用及任务工作模式全场景,并于 2024 年底完成双芯粒 + 中介层流片落地。
西门子 EDA 补充了互连与功能验证关键技术:
边界扫描 1149.x:板级与封装级互连测试主力,可检测开路、短路、固定故障,支持高速差分接口 1149.6 专项测试;
接口内置自测试 BiST:HBM 通路专用 BiST(环回 + 通道修复)、SerDes 高速串行链路 BiST(环回 + PRBS 伪随机码);
全速功能测试:大数据传输与性能基准校验,模拟真实工况确保完整性与性能达标。
系统级测试 SLT
相较于 ATE 测试仪与封装器件测试,系统级测试 SLT完全复刻真实工作环境。将芯片、外设、软件集成在实景工况中,可把逃逸失效率控制在可接受 DPPM 水平。
仅靠传统 ATE 很难捕获多器件高速联动、临界温变、特定软件负载下才显现的临界缺陷与静默数据损坏 SDC。英特尔晶圆厂自研模块化 SLT 平台,搭载与商用整机一致的内存、存储、显卡、网络接口,专门筛除这类偶发隐性故障。
英特尔表示:传统手段难以检出的高速接口缺陷,在真实数据流与电气噪声工况下会充分暴露;SLT 可提前规避 USB 断连、音频杂音、显卡性能异常等终端问题,保护产品口碑。
IBM 研究院 AI 硬件研究工程师强调 AI 加速器对超高可用性与可靠性的严苛要求:必须在极限高应力负载下完整遍历硬件栈,覆盖大模型推理最坏工况,全量校验错误、张量结果与诊断信息,同步施压计算内核、内存接口与功耗域。
从晶圆测试到系统级测试,制造各阶段逐步放大可测范围。大量功能仅能在制造末端完成验证,因此 SLT 是设备量产部署前保障一致性与可靠性的关键环节。
SLT 测试用例通过闭环迭代持续优化:执行测试 — 分析失效 — 迭代负载 — 更新筛选标准。受量产测试时长限制,只能精选高预测性、高覆盖率最小测试集,需基于大量流片失效与裕量数据分析筛选。
老化测试 Burn-in 通过施加高于常规工况的电压、温度,模拟工艺偏差与缺陷带来的器件老化,是新工艺量产必测环节,用于筛除早期夭折缺陷。晶圆级老化实现难度大,目前仍以封装后老化为主。
结语
AI 加速器与多芯粒封装普及后,从晶圆探测到系统在线运维的全生命周期测试,成为数据中心 7×24 小时稳定运行的必备条件。AI 加速器必须内嵌可测性设计模块,支持量产阶段及全寿命周期的在线测试与修复;接口 BiST、HBM 专用自测试、SerDes 链路自检、通道环回与修复成为标配;功耗感知 ATPG 规避浪涌与误判失效;系统级测试 SLT 则在装机前筑牢 AI 模组功能与可靠性底线。
参考文献:
Levinthal, I., Lathrop, R., “AI Chips Pose Demanding Test Challenges: An Exploration of New Methodologies,” in IEEE Electron Devices Magazine, vol. 3, no. 1, pp. 18-23, March 2025, doi: 10.1109/MED.2025.3540741.
Zorian, Y., “Enabling Seamless Monitoring, Test, And Repair In Multi-Die Designs,” Semiconductor Engineering, March 10, 2026.



评论