新闻中心

EEPW首页 > 测试测量 > 设计应用 > 通过实时健康监测预防故障:一项proteanTecs创新

通过实时健康监测预防故障:一项proteanTecs创新

作者: 时间:2025-10-30 来源: 收藏

关键

  • 可靠性、可用性和可维护性 (RAS) 在现代半导体中至关重要,特别是当器件缩小到 2nm 等纳米级几何形状时。

  • 静默数据损坏 (SDC) 对人工智能系统构成重大威胁,由于无法追踪的硬件故障而导致不正确的输出和错误的决策。

  • 传统的可靠性方法,如内置自检 (BIST),不足以,通常只有在故障发生后才会做出响应。

  • 的实时运行状况监控 (RTHM™) 提供对性能限制路径的连续、高覆盖率监控,从而在故障升级之前进行主动干预。

proteanTecs RTHM OIP 2025 认证

在复杂的半导体世界中,可靠性、可用性和可维护性 (RAS) 变得至关重要,尤其是当设备缩小到 2nm 等纳米级几何形状时。在最近的 2025 年台积电 OIP 论坛上, 解决方案工程副总裁 Noam Brousard 发表了题为“通过实时健康监控 (RTHM™) ”的演讲,强调了现代电子产品如何面临前所未有的挑战。从较小的架构和高性能工作负载到激烈的竞争和成本压力,这些因素都会导致功能故障、静默数据损坏和系统范围的错误。由于硬件必须承受更长的生命周期(通常为 4-6 年)而不进行更新,因此故障风险会升级,特别是在设备在较低电压和不可预测的需求下运行的大规模人工智能系统中。

静默数据损坏 (SDC) 是一种阴险的威胁。与可检测的错误不同,SDC 源于逃避异常机制和系统日志的不可追踪的硬件故障。它传播时未被发现,导致级联问题,需要进行广泛的根本原因分析。在人工智能驱动的环境中,SDC 可能会在模型中产生不正确的输出、错误的决策和参数损坏,从而对关键应用程序产生灾难性影响。Brousard 引用了现实世界的例子来强调 SDC 的崛起。Meta 报告了有缺陷的 CPU 中错误计算的数学运算,导致数据库丢失,其中文件解压缩错误产生零而不是 156。阿里云因间歇性处理器故障,在存储应用中遇到校验和不匹配。谷歌指出,低级库中的罕见指令暴露了制造缺陷,而其他案例则涉及不正确的哈希和缓存一致性问题。谷歌、Meta、Facebook 和阿里巴巴的研究表明,大型机队中大约千分之一的机器患有 SDC,这凸显了它在生产 CPU 人群中的普遍性。

传统方法不足。内置自检 (BIST) 集成复杂且昂贵,仅在启动时运行,响应缓慢且无法精确定位位置。硬件和软件检查通常在故障后做出反应,缺乏主动干预所需的粒度。

的 RTHM 是其综合生命周期解决方案的一部分,涵盖功耗/性能优化、可靠性监控、功能安全、芯片和系统生产以及先进封装。RTHM 通过提供内部电子设备可见性,将范式从错误控制转变为故障避免。它采用片上代理,在测试和任务模式下对实际性能限制路径进行高覆盖、连续监控。这些代理在真实路径中对高速时钟进行采样,遵守功率性能面积 (PPA) 约束,并且对工作负载压力、潜在缺陷、工作条件、直流红外压降、局部 Vdroops、热点和老化敏感。

一个关键功能是性能指数,这是一种基于事件的算法,可聚合跨阈值、受影响区域、时钟/功率域和先前事件的时序裕度测量值。PI 按逻辑单元进行分析,提供反映问题严重性(即设备接近故障的程度)的综合分数。它以百分比(例如 79%)可视化,使操作员能够在问题升级之前采取行动。

如果没有 RTHM,故障就会在升级后显现出来,使根本原因复杂化并导致代价高昂的停机时间。有了它,可以先发制人地识别和缓解潜在问题,从而产生更快、准确、经济高效的预测。这种主动的立场可以避免功能故障,防止 SDC 并消除系统范围的错误。RTHM 在电路级别提供准确的故障检测、对内在/外在故障的可靠性监控以及无与伦比的弹性以阻止错误传播。

底线:随着半导体不断突破界限,RTHM 代表了一种变革性工具。通过将智能直接嵌入到芯片中,它使工程师能够预测和避免故障,从而在规模化和复杂性时代保护运营。欲了解更多信息,(需要 URL)



评论


技术专区

关闭