故障检测和分类的新领域
IC 制造商越来越依赖智能数据处理来防止停机、提高良率和减少报废。他们将其与故障检测和分类 (FDC) 相结合,以追踪故障原因。
当今的 FDC 系统具有更好的传感器、变异性控制以及预测性和规范性建模。未来,FDC 将使用法学硕士和代理人工智能等工具实现实时决策。
FDC 的很大一部分变化都围绕着故障预测。“传统的 FDC 不具有预测性,”Cohu Analytics 解决方案 Tignis 的副总裁兼总经理 Jon Herlocker 说。“它依靠人类及其工艺/设备专业知识来识别故障的先决条件,然后对其进行监控。”这种方法不是自动化的、工程密集型的,而且响应缓慢。“现代故障检测系统利用机器学习来持续分析设备信号并识别故障的前兆,从而在故障发生之前有效地预测故障。”
工程师使用 FDC 实时响应对已知良好模具生产影响最大的变化。借助当前的工具,FDC 可以利用 AI 功能更好地对致命缺陷进行分类,同时加快根本原因分析的根源。
现代 FDC 还可以实现更好的异常值检测,这是区分边缘芯片和良好芯片的关键步骤。“最大的改进是从单变量分析转向多变量分析。能够跨多个变量工作可以提高灵敏度,从而减少误报,“Onto Innovation 产品管理总监 Joe Fillion 说。
FDC 本质上与决定产量的电气测试相关。与此同时,越来越需要实时处理来确定异常值是否良好。“另一个关键变化是实时数据处理。这提供了即时和预测性的故障检测,以更好地保护产品。它还提供了动态(几乎原位)配方调整的能力——特别是在使用运行到运行控制时,“Fillion 说。
“我们看到的机会是一类真正受益于实时数据和实时处理的问题,”泰瑞达产品测试集团总裁 Regan Mills 说。“你显然可以更好地决定设备的好坏。或者,也许您正在快速评分。但是,您需要使用从该设备获得的信息以及随着时间的推移从其对等设备获得的信息,尽快对该设备做出决定。因此,您正在以一种以前通常从未做过的方式使用聚合数据。这是使用测试现场的边缘计算资源来执行的。
晶圆厂计算资源水平不断提高,可以更快地做出反应,但许多专家警告说,这种好处并不是全行业范围的。“使用传统的 FDC,您会在问题发生六到七周后,在晶圆测试中发现问题,”yieldWerx 首席执行官 Aftkhar Aslam 说。“但到那时,你已经拥有了所有这些已经经过制造的材料。它很糟糕,无法返工。这是当今 300 毫米晶圆厂的主要改进。进入晶圆厂的设备包括高性能数据中心,可以摄取这些数据并实时做出决策。但我们不能说这对整个行业有帮助,因为老晶圆厂不具备这种能力。
虽然半导体晶圆厂长期以来一直使用 FDC 程序和分析,但 FDC 的新领域正在发生在组装和先进封装领域。“我们看到 FDC 最大的实施是在先进封装中,台积电、英特尔、三星,甚至是不太知名的公司都在构建这些多芯片高级封装,”PDF Solutions 晶圆厂应用解决方案经理 Jonathan Holt 说。“这包括在另一个基板上构建封装、精确放置多个组件、通过硅过孔制造以及面对面键合的所有复杂性——它们必须具有 FDC 和实时过程控制。”
FDC 进展:简史
早期的故障检测和分类工作涉及工艺工程师的大量手动工作,从晶圆加工、计量、不同的测试插入等多个来源收集数据。任何给定工具上的 FDC 都是通过首先跟踪传感器跟踪数据的最小值、最大值和平均值来完成的。然后,工程师为警报和监控分配阈值。
但是阈值的放置并不像看起来那么容易。“找到正确的阈值具有挑战性,因为如果阈值太窄,你就会收到大量警报,如果阈值太宽大,就会错过错误,”Cohu 的 Herlocker 说。
以这种方式在整个工厂中部署 FDC 可能需要数年时间才能选择正确的相关性(即接触电阻和传感器)和最佳阈值。“此外,设备和流程会定期变化,因此 FDC 系统需要定期员工来监控和调整阈值,否则警报会变得令人讨厌并被忽视,”Herlocker 补充道。
事实上,在大数据时代,数据被忽视的可能性很可能是因为工程师忙于运行他们的流程和设备。此外,由于工程师需要在生产中尽快捕获异常,因此他们转向对时间序列数据进行连续监控。
“仍然需要在使用点控制工具,因此我们开始从传感器获取完整的跟踪数据,然后在工具周围放置保护带,以确保它不会漂移,”PDF 的 Holt 说。“所以现在我不必提取特征。我可能会错过具有平均值、斜率、最小值或最大值的数据,但我会在完整的时间序列数据跟踪中捕获它,该跟踪也用于晶圆厂中的工具与工具匹配。
此时间序列数据还需要包括预防性维护步骤。记录这个完整的生命周期需要大量的数据和数据存储。“例如,我们查看了台积电 30,000 片晶圆的跟踪数据,结果为 100 TB。他们在每家工厂生产 250,000 片晶圆。因此,您谈论的是 PB 级数据,当您进行时间序列数据监控时,您必须分析和维护这些数据。这是一个支持的挑战,“霍尔特补充道。
FDC 最初涉及建立单变量相关性(单变量),但很快就被证明是不够的。然后,工程师设计了多变量模型来关联复杂的关系,从而提高了灵敏度并减少了误报的数量。
ML/AI 革命
随着质量水平的提高,采用基于 ML 的建模的需求也在增加。机器学习是人工智能的一个子集,也可用于分析大型数据集、识别模式并提高故障检测准确性。
“传统上,FDC 依赖于静态阈值和 SPC,”Onto 的 Fillion 说。“随着时间的推移,这已被机器学习所取代,并最终被人工智能所取代,以对过程条件与带有故障和错误的变量之间更复杂的非线性关系进行建模。机器学习模型提高了准确性和及时性。此外,先进的计算能力允许规范性和预测性建模以及异常检测。
预测模型预测可能发生的情况,而规范模型则根据这些预测推荐具体行动以实现最佳结果。

图1:工厂FDC、数字孪生、分析、第三方系统和MES元素之间的通信。来源:PDF 解决方案
现在,最大的变化是整合人工智能工具来加快分析速度并捕获人类可能错过的异常或异常值。“在深度分类方面取得了非常显着的改进,使用人工智能和机器学习来查找签名并连接以前永远不会连接的点,”YieldWerx 的 Aslam 说。
在 COVID-19 大流行期间,对晶圆厂设备的远程指挥和控制成为一项必备功能,当时工程师无法前往现场解决问题,从那时起就一直在使用。EDA 和 ATE 工具之间的连接尤其强大。
“我们的远程连接工具允许用户远程连接到 ATE 以使用 EDA 工具、SoC 代码调试器和自定义工作台脚本,”泰瑞达首席软件工程师 Richard Fanning 说。“这使团队能够使用他们选择的工具和专家来调查问题,从而简化实时使用正确工具的最佳人选的过程。我们与行业领导者合作,使这种集成尽可能简单。客户向我们表示,他们尽早减少故障的主要方法是消除设计台架设置、仿真和 ATE 测试程序之间的差异。
传感器数据分析和数字孪生对于尖端设备尤为重要。“支持这些先进节点所需的先进传感器数量正在爆炸式增长,”Inficon 智能制造总经理 John Behnke 说。“如果没有嵌入式传感,你就无法制造出亚 2 纳米的工艺工具。智能传感器的人工智能增强是 FDC 的真正要求。然后,在整个供应链或工厂中实际整合这些信息的能力变得越来越重要。此外,数字孪生正变得越来越被接受,我们认为它们需要相互通信。
数字孪生的构建成本很高,尤其是当它们包括过程设备上的关键传感器时。缺乏标准也阻碍了接受。NIST 和 SEMI 正在制定数字孪生标准。“我确信他们会推荐一些标准,可能用于沟通。但它们将包括所有 FDC SEMI 标准,可能一直到 EDA 和所有物联网,“PDF 的 Holt 说。“但是,如何以所需的速度传输数据呢?这可能需要多个协议,并且可能会被容器化,并具有一定的安全性和开销。
异常值检测
最近在异常值和异常检测方面的主要进展来自特征提取和信号隔离,而不是核心算法本身。“为了使这些系统取得成功,必须将聚焦数据信号暴露给异常值检测算法以减少检测次数,”Cohu Analytics 解决方案旗下 Tignis 的数据科学总监 Ryan Stoddard 说。“现代特征提取算法,例如深度学习自动编码器,可以提取简单的统计特征不容易检测到的细微痕迹形状差异。LLM 可以轻松搜索历史 OCAP 数据集并暴露关键信号,这些信号通常是先前问题的早期预警。总的来说,领域专家可以部署这些新技术,使异常检测系统更加集中和广泛相关。
左移的概念对于在工艺流程的早期检测故障变得越来越重要,特别是对于基于小芯片的模块。“我们可以通过利用历史数据和分析最近的数据集,应用机器学习技术在早期阶段预测故障。然而,它涉及避免过度杀伤和确保准确故障检测之间的权衡,“爱德万测试应用研究负责人 Kotaro Hasegawa 说。“机器学习的一个应用是使用动态零件平均测试 (DPAT) 进行异常值检测,我们根据测试结果中观察到的各种趋势动态调整限值。这种方法已经在汽车设备中大量使用,但现在我们也将其应用于其他设备,“长谷川补充道。
DPAT 是一种制造技术,它使用统计分析来动态设置测试限值,而不是使用固定限值,以识别和消除可能导致质量和可靠性问题的异常值部件。DPAT 消除与过程相关的异常值。但公司正在超越 DPAT 来提高产品质量和产量。
“零件平均测试是IATF16949的一个重要方面——汽车制造必须拥有它,”Cohu Analytics 解决方案 Tignis 的解决方案工程总监 Boyd Finlay 说。“此外,还需要 Out Of Family (OOF)、Good Die Bad Neighborhood (GDBN)、统计箱限制 (SBL) 和统计良率限制 (SYL)。而且我没有听到有人谈论零件平均预测测试或虚拟测试。用预测代替实际测试似乎是一个实现十亿分之零缺陷零件的机会。
当产量偏移确实发生时,快速反应非常重要,并且知道如何做出反应。“所以问题实际上是,'你什么时候做出反应?'产量偏移会对您的组织产生多大的财务影响?如果是 25%,与之相关的成本是多少,”西门子数字工业产品管理总监 Marc Hutner 说。“作为测试程序的一部分,您正在进行一系列测量,并且您正在进行与之相关的标准分箱,但随后您正在分析数据并问,'这里发生了什么?'你可以做一些事情,比如重新测试。或者,在查看数据后,您可能会意识到设置中发生了一些事情。
这可能像与 DUT 的接触错误一样简单。“对于逻辑设备,我们定义了 ATPG 扫描的工作流程,其中包括如何收集和格式化测试数据,”Hutner 说。“因此,我们提供的模式既具有驱动数据,也具有预期。然后,我们要求客户在标准数据测试或 STDF 中格式化数据,然后将其直接输入到我们的体积诊断工作流程中,在那里可以对其进行分析以找出产量问题存在的位置,然后由人工查看报告。
在为数据集选择合适的模型时,工程师可以开发监督或无监督模型。“在许多情况下,无监督学习是有意义的,因为这些过程和技术已经为人所知多年,”YieldWerx 的 Aslam 说。“但有人工智能芯片和光子学等新技术。在这些前沿领域,很多处理都是新的,我不会相信无监督学习,所以它并不适用于所有领域。
结论
在工艺工具上与法学硕士或其他形式的人工智能交互的能力最终将促进更快的反应,从而在制造过程中产生良率偏差。在晶圆厂工具上成熟的 FDC 系统正在进入装配和测试线,例如,在模具拾取和放置或单切工具上进行工具与工具的匹配将确保更好的过程控制。
FDC 仍然是工程师必须指导、监控和做出反应的过程,同时还要进行再训练练习以保持模型的相关性。多家公司之间日益加强的合作正在促进智能制造这一关键领域的快速进展。






评论