新闻中心

EEPW首页 > EDA/PCB > 设计应用 > 确保多芯片组件的可靠性变得更加困难

确保多芯片组件的可靠性变得更加困难

作者: 时间:2025-11-04 来源: 收藏

将各种具有明显不同物理特性的材料和工艺结合在一起,在制造和封装方面带来了重大挑战,可能会影响零时良率和现场

在生产线末端通过电气筛选的东西在纸面上可能看起来不错,但一旦暴露于快速和反复的热循环、机械应力和由于利用率较高而加速老化,这些设备仍然可能失效,尤其是在人工智能数据中心。当多个芯片集成到同一个封装中,并通过细间距互连连接在一起时,问题尤其严重。设备出厂后,附着力破坏、分层、应力开裂和潜在的电气缺陷都可能浮出水面。

因此,该行业正在从最大限度地提高测试通过率和通过标准测试转向更广泛的测试和检查,以确保封装能够承受多年的使用条件。

“在经历过程热循环时保持平面性和机械完整性是使异质材料协同工作的最大挑战之一,”Brewer Science 高级应用工程师 Amit Kumar 说。“材料热膨胀系数的不匹配会导致不同界面处出现应力相关缺陷,并可能导致封装内的结构缺陷。”

这种认可正在推动材料、检测、测试、过程建模和设计集成方面的新方法。

以材料为基础
的基础是材料科学。粘合剂、粘合化学品、电介质和底部填充物被用来支持日益精细的特征和激进的热循环。在异构集成中,逻辑、存储器和专用器件组合在一个封装中,热膨胀系数或机械强度的不匹配通常决定组件是否能够经受住现场使用。

早期材料评估至关重要。在产量增加之前,必须充分了解释气、颗粒生成和化学兼容性。粘合层必须在热限制范围内保持完整性,因为材料层面的微小可靠性故障会迅速扩大为系统性良率损失。

“可靠性风险不会在流程的后期出现。他们从基本的材料相互作用开始,“Brewer Science 控制工程经理 Matt Rich 说。“如果粘合剂或电介质在实际条件下不稳定,那么下游检查和测试只是发现从一开始就内置的故障。”

没有单一的材料参数可以保证可靠性。附着力、抗应力和热稳定性都必须同时平衡。因此,材料工程师必须与工艺和包装团队更紧密地合作,打破传统的孤岛,并在选择和鉴定阶段的早期嵌入可靠性模型。

先进封装堆栈现在结合了低介电电介质、聚合物粘合剂、金属互连和屏蔽层。它们中的每一个都具有不同的热、机械和化学特性。管理这些异质材料之间的相互作用不仅需要了解单个材料的性能,还需要了解它们作为一个系统在压力下的行为。

随着包装的发展,材料选择的权衡成倍增加。混合键合和堆叠芯片应用需要具有高耐化学性的粘合剂进行加工,并需要高效的脱模机制进行返工。材料必须平衡高模量,以防止边缘周围开裂,并具有足够的柔韧性来吸收热应力。这些相互竞争的要求传统上被迫妥协,但正在开发新的材料系统来同时满足这两种需求。

可靠性的影响不仅仅是机械完整性。释气会污染敏感表面。不同材料之间的腐蚀会导致电气故障。加工过程中产生的颗粒会产生随着时间的推移而传播的缺陷。这些问题中的每一个都需要材料层面的解决方案,但影响却体现在系统层面。因此,可靠性驱动的良率管理必须从基本的材料相互作用开始,而不是将材料视为堆栈中的无源元件。

检查和测试向预测
发展过去,检查和测试的重点是检测即时缺陷。但在先进封装中,它们的作用正在演变为可靠性风险的预警系统。工程师仍然需要知道设备今天是否通过,但他们还必须考虑它是否能经受住多年的运行。这改变了对检测和测试基础设施的期望。

检测正在转向可靠性检测。工具应该捕获可能不会立即导致性能问题的缺陷,但这些缺陷是现场故障的前兆,例如在应力下传播的空隙、裂纹或表面不均匀性。

“可靠性风险通常始于看似良性的变化,”Microtronic 应用总监 Errol Acomer 说。“在检查过程中,热点或闪光场可能只是显示为不同的阴影。你会有彻底失败的死亡,但随后你会有通过测试的妥协死亡。这些就是我们所说的行走的伤员。如果不将本地检查数据与更广泛的过程和测试结果相关联,您就无法看到实际预测现场故障的模式。

这种相关性挑战推动了对全面数据集成的需求。测试逃逸代表了一种隐藏的可靠性税。他们消耗制造资源,通过质量大门,并在失败之前接触到客户。从那里开始,后期生产成本会因保修退货、声誉受损而级联,在汽车等关键应用中,还包括安全风险。

数据基础设施支持长期跟踪
现代包装可靠性取决于在较长时间内捕获和维护过程数据。设备行为、过程漂移和当时看似微不足道的细微变化在数月或数年后分析现场故障时可能会变得至关重要。

“你必须将历史记录、完全情境化的过程和机器历史记录存储七年,因为一年零三个月或更短的时间不足以获得设备故障的长尾,”Cohu Analytics 解决方案 Tignis 的解决方案工程总监 Boyd Finlay 说。“如果你不查看这些数据,你总是会遇到意外的产量事件或意外的停机事件。”

这种长远的眼光需要的不仅仅是简单的数据存储。信息必须是可访问的,并且需要跨流程步骤、设备类型和组织边界进行关联。如果没有这种连续性,根本原因分析就变成了猜测。

数据关联对于这种转变至关重要。如果无法跟踪芯片或多芯片设备如何从晶圆通过封装进入测试,现场返回的根本原因分析几乎是不可能的。挑战在于构建能够在复杂供应链中保持这些连接的系统。

“真正的挑战是与客户合作,确定跟踪批次移动和分割的实际数据的存储位置,”YieldWerx 首席执行官 Aftkhar Aslam 说。“它存储在 MES 系统中吗?在 ERP 系统中?在 Excel 文件中?挑战在于确定数据源,导入该数据,并构建逻辑来跟踪从晶圆到封装和测试的每个芯片。

一旦建立了家谱,机器学习模型就可以预测哪些批次最容易出现可靠性偏差的风险。预测分析可以减少重新测试、改进容量规划并更早地标记高风险批次。重点是干预而不是检测。

然而,在实践中,该行业的数据孤岛可能会减慢纠正措施的速度。OSAT可以将可靠性问题追溯到基板异常,但根本原因可能在于晶圆厂侧的应力条件。如果无法访问完整的谱系,制造商最终可能会追逐症状而不是防止故障。缺乏跨供应链边界的标准化数据流仍然是准确预测长期可靠性的核心挑战。

工艺建模使曲线左
移不能仅在封装级别保证可靠性。它始于创建器件的工艺步骤的完整性。虚拟硅和屈服吸引器分析正在成为管理上游可靠性的重要工具。工程师可以对整个工艺流程进行建模,以了解变化如何在集成步骤中产生涟漪,而不是一次追逐一个良率故障。

“你对一个收益率进行了更改,其他因素就会增加,导致其他东西在下一次迭代中被追逐,”Lam Research Semiverse 产品董事总经理 Joseph Ervin 说。“通过一次、两次或三次产量失败来提高产量的系统非常具有挑战性。真正的价值是将曲线向左移动,同时解决更多的收益率挑战,并最终达到尽可能高的收益率。

向可靠性优先的转变需要重新思考传统的良率指标。传统的良率计算侧重于特定检查点的测试通过率,例如晶圆分类、封装测试和系统级验证。但这些快照忽略了可靠性的动态性质。通过电气测试的设备可能仍存在潜在缺陷,例如关键界面的边际粘附、底部填充中的微空隙或在热循环下传播的应力集中。这些与时间相关的故障不会显示在良率数字中,但它们直接影响客户的可用输出。

“正是这些多个步骤之间的相互作用为您提供了收益,”Ervin 补充道。“你不能依靠一个流程来解决所有问题,因为之前的所有步骤都会影响下一步发生的事情。在整个空间中创建模型是实现这一目标的重要部分。

通过虚拟捕获可变性和良率批评者,工程师可以在晶圆到达封装之前识别出影响可靠性的故障模式。这减少了代价高昂的试错周期,并在流程的早期嵌入了可靠性裕度。

设计集成可防止系统性风险
可靠性还取决于设计选择。多芯片系统提高了热分布、互连密度和分区策略的风险。如果在不考虑封装限制的情况下做出这些决定,则只有在构建昂贵的原型后才会导致可靠性风险出现。认识到这一点,设计团队现在正在开发周期的早期纳入可靠性约束。在评估封装选项和芯片分区时,可靠性模型为这些架构选择提供信息,防止一旦理解了物理约束,有前途的设计就被证明是不可制造或不可靠的情况。

新思科技研发执行总监Sutirtha Kabir表示:“如果你在这个架构探索阶段做出了重大的判断问题,那么你将在未来遇到问题,这将给ECO(工程变更单)和设计迭代带来严峻的挑战。“建筑师从更广泛的选择开始,然后他们必须缩小范围。如果没有适当的探索,你就有可能在一条后来被证明行不通的道路上走得太远。

图 1:Synopsys 的 Kabir 在 SEMICON West 上讨论设计架构和可靠性。资料来源:Gregory Haley/Semiconductor Engineering

图 1:Synopsys 的 Kabir 在 SEMICON West 上讨论设计架构和可靠性。资料来源:Gregory Haley/Semiconductor Engineering

在上游嵌入封装可靠性约束可以降低代价高昂的后期意外风险。它使设计意图与工艺能力保持一致,并确保根据长期可靠性来衡量产量。经济维度很重要,因为可靠性监控需要对先进的检测系统、环境压力测试和人工智能驱动的分析进行资本投资。对于汽车或高性能计算等应用,单次可靠性偏移的成本远远超过投资,采用正在加速。

SEMICON West 传达的信息很明确——先进封装的良率与可靠性密不可分。材料设定极限,检查和测试提供监控,数据提供相关性,过程建模预测结果,设计集成防止系统性风险。生态系统的每一部分都有助于定义有多少晶圆输出可以算作可靠的良率。

采用
障碍 可靠性驱动的收益管理仍然面临许多系统性障碍。最持久的是数据所有权。先进封装需要晶圆厂、OSAT、基板供应商和测试机构的贡献,每个工厂都会产生对良率和可靠性至关重要的数据。然而,数据仍然分散在组织边界上。当故障在下游浮出水面时,工程师通常缺乏对上游流程历史记录的可见性,而这些历史记录可以提供根本原因。

另一个障碍是验证预测模型。可靠性需要远见卓识,但大多数人工智能模型必须根据过去的结果进行训练。在现场工作多年后才会浮出水面的潜在缺陷使验证变得复杂。由于对预测没有信心,制造商不愿意仅根据模型输出来更改工艺参数或更改设计规则。

漂移和可解释性是相互交织的问题。人工智能模型可能会预测特定批次的高分层风险,但如果没有与物理参数的明确联系,工程师会犹豫是否要相信这些预测。可解释性正变得与准确性一样重要。黑盒算法无法在误报成本高达数百万美元的环境中推动决策。

检测模型面临着一个平行的问题。在一个包几何体上训练的算法可能不适用于另一个包几何体。不一致的再培训可能会导致误报,从而因过度报废或过度返工而造成产量损失。

结果是,采用可靠性驱动的产量管理仍然谨慎。公司将预测分析与现有实践并行部署,在根据建议采取行动之前需要人工批准。这种混合方法减缓了进展,但反映了半导体制造的风险计算。预测必须被证明,而不是假设。

供应链协作供应链协作
增加了另一层复杂性。材料选择是可靠性的基础,但它们的行为是由与工具、流程和下游环境的相互作用决定的。在孤立测试中表现良好的粘合剂在与特定的清洁化学品或粘合型材搭配使用时可能会动摇。如果没有早期的跨供应链沟通,不匹配就会延迟出现,从而导致可靠性偏差和隐藏的良率损失。

一种解决方案是早期调整。如果材料供应商在上游共享应力和附着力数据,并且 OSAT 反馈实际性能,则可以在集成之前对可靠性风险进行建模。这需要新的商业模式和新技术,因为参与者必须在合作与知识产权问题之间取得平衡。

过程虚拟化提供了部分答案。通过创建捕获沉积、蚀刻、键合和封装之间相互作用的系统级模型,工程师可以在不暴露敏感配方的情况下模拟可靠性结果。共享模型可以让合作伙伴在晶圆提交之前虚拟测试兼容性。

经济压力推动变革
这些材料层面和工艺层面的决策会波及整个供应链,不仅影响即时产量,还影响长期可靠性经济性,而长期可靠性经济性可能因应用而异。可靠性监控需要对高级检测系统、环境压力测试和人工智能驱动的分析进行资本投资。在汽车或高性能计算领域,单次可靠性偏移的成本远远超过投资,因此采用速度很快。在消费类或利润率较低的领域,权衡基础设施成本与感知风险会让制造商犹豫不决。

信任是这一转变的关键货币。客户不仅期望获得良好的产量,而且期望对设备在现场发挥作用充满信心。可靠性成为品牌价值的一部分。

材料、检测、数据、工艺模型和设计集成的融合指向一个可靠性和良率密不可分的未来。尽管如此,这条道路仍然是渐进的。公司正在尝试预测分析、构建试点孪生并加强数据链,但广泛采用需要时间。包装流程的多样性意味着没有单一的配方可以定义可靠性驱动的良率。每家公司都必须根据自己的架构、供应商和客户组合调整方法。

结论
在SEMICON West,重点不是可靠性是否应该提高产量,而是如何使这种转变变得实用。材料的鉴定必须考虑到可靠性。检查和测试必须演变成预测性监视器。数据必须在不损害知识产权的情况下跨边界共享。模型必须变得可解释和可信。这些转变中的每一个都在进行中,但没有一个是完整的。

将这些努力结合在一起的是认识到,没有可靠性的产量是没有意义的。通过测试但在现场失败的包装并不是一个好产品。这是逃脱检测的延迟废料。越来越多的人必须通过在现实条件下长期使用下来的实际产量来衡量。从这个意义上说,可靠性不是让步的附属品。它定义了可用产量。这种哲学转变正在推动实际变革。在鉴定过程中,人们更加重视压力测试,工艺变化和现场回报之间的相关性更加紧密,并且更愿意投资于检查和监控能力,以便在潜在缺陷消失之前发现它们。

变化的速度因应用和细分市场而异。在监管要求和现场故障不可接受的成本的推动下,汽车和航空航天等高可靠性市场正在引领采用。消费电子产品和移动应用正在更加谨慎地发展,权衡额外测试的成本与保修风险。数据中心和人工智能应用占据中间地带,可靠性直接影响运营成本和客户信任。但在所有细分市场中,趋势都是显而易见的。可靠性考虑因素正在开发周期的早期进行,并更深入地集成到产量管理框架中。

“可靠性不是你在流程结束时检查的方框,”Brewer's Rich 说。“这是产量的基础。从材料选择到设计架构再到测试环境,每一步都决定了今天的良率是否转化为明天的可用产品。



评论


相关推荐

技术专区

关闭