多阶段检测如何防止 AI 处理器中的静默数据损坏
随着晶体管几何形状的缩小和系统复杂性的扩展,一个令人不安的事实变得越来越难以忽视:静默数据损坏(SDC)比大多数系统架构师想象的更常见、更严重。这些错误不会留下任何痕迹,因此很难识别。然而,一个模型可能会扭曲独立节点之间的模型权重,从而悄悄地破坏可能持续数周、涉及超过 25,000 个 GPU、成本超过 1 亿美元的训练运行。

即便在验证和测试方面投入巨大,未被检测到的故障仍在大规模 AI 部署中挑战着芯片的可靠性。
如果单个芯片在同步期间引入静默错误,则损坏可能会在整个集群中传播。IEEE 研究表明,软错误率急剧上升,从 65 nm 的每年一次故障增加到 16 nm 的每 1.5 小时一次,如下图。

Meta 和阿里巴巴分别报告,其 AI 和云基础设施中每 3 小时就会出现硬件错误,以及每百万件产品中存在 361 件缺陷(DPPM)。虽然 361 DPPM 甚至数千 DPPM 在小规模场景中可能不足为虑,但在包含数百万台设备的大规模集群中,SDC 事件的发生频率足以威胁整个系统的可靠性。
随着 AI 发展,静默数据损坏的威胁日益加剧
对于不断扩展的生成式 AI 和机器学习工作负载(包括模型训练、推理和高性能 AI 应用)而言,SDC 正成为日益严峻的可靠性威胁。这些过程往往将处理器推向极限,从而增加了静默损坏的概率。
与通常通过纠错码缓解的内存位翻转不同,SDC 源于细微的计算级故障:时序违规、老化效应或逃避传统半导体测试的边际缺陷。这些错误会悄无声息地扭曲计算,通常不会触发警报,并且不会被发现,直到它们表现为不正确的输出或潜在的有缺陷的决策。人工智能系统越大、越复杂,这些故障发生的可能性就越大,其影响也越具有破坏性。
传统的冗余方法可以保护内存和通信路径,但对执行级故障(现代 AI 环境中 SDC 的主要来源)几乎无能为力。实际后果轻则是难以察觉的计算误差,重则是影响业务的故障。行业报告已记录多起案例:例如,因缺陷 CPU 中的数学运算错误导致数据库文件丢失,以及存储应用因缺陷 CPU 出现用户数据校验和不匹配等问题。
应对静默数据损坏问题的尝试
随着工艺节点缩小和芯片架构升级,扫描自动测试图形生成(ATPG)、内置自测试(BIST)和基本功能测试等传统测试方法已跟不上需求。虽然它们足以检测离散的制造缺陷,但往往无法发现导致 SDC 的细微半导体工艺偏差。
这造成了持续的盲点,强调了现场监测的必要性。据 Meta 称,SDC 调试可能需要数月时间。对不留痕迹的故障进行故障排除需要独创性,通常需要大量资源。更糟糕的是,尽管投入了大量资金,但许多 SDC 调查仍没有结果,这实际上使不确定性长期存在。
在 2023 年亚洲测试会议(ITC-Asia)的一场会议中,Broadcom报告称,其 50% 的 SDC 调查最终以 “未发现问题”(No Trouble Found)告终。这些挑战凸显了传统测试方法的局限性,以及对更先进解决方案的迫切需求。
现场测试也存在漏洞。使用 “金丝雀电路”(canary circuits)的原位方法,往往无法监测到关键路径的实际时序余量 —— 这些余量可能因老化和工艺偏差而减少。正如 “MRHIEP” 中所提及的,随着芯片内差异的增大,这一问题变得至关重要。
定期维护测试的灵敏度可能不足,大多只能识别明显故障,而忽略与单比特纠错(SEC)相关的细微问题。此外,由于测试设备需从集群中移除,它无法模拟原位监测的真实工况,导致引发 SDC 的细微异常仍未被发现。
一些机构尝试通过冗余计算方法克服这些局限,即在多个核心上重复执行任务,仅当所有结果一致时才判定正确。虽然这能防止 SDC 扩散,但硬件开销大、成本高,且在超大规模场景下难以扩展。
解决问题的两阶段检测方法
随着数据中心扩张和能源需求上升,投入大量工程时间追踪数千台服务器中难以检测的故障已难以为继。可扩展的解决方案在于更先进的测试方法,即基于人工智能的两阶段深度数据检测。
在芯片制造和现场运行阶段实施多阶段检测,能帮助芯片制造商恢复产品可靠性,并让集群运营商重获对硬件的信心。通过深度数据可见性对多个阶段进行监测,可大幅提高在易发生 SDC 的组件失效前发现问题的概率。
有效的测试不能局限于简单的 “合格 / 不合格” 二元判断。更高粒度的芯片测试(结合考虑工艺偏差和预测性能余量的参数分级),即使设备技术上通过了标准测试,也能标记出异常设备,从而防止 “带伤运行” 的芯片进入生产集群。
要实现这种检测精度,芯片诊断方法必须转变:从边界检查转向嵌入式基于 AI 的遥测技术,持续评估每台设备的健康状态。通过在芯片中嵌入智能,并将机器学习应用于丰富的遥测数据,可在制造阶段和整个现场运行期间实现持续可见性。
AI 算法能检测到传统测试忽略的细微参数变化,并预测故障模式,在潜在漏洞导致静默故障前很久就将其识别出来。这种基于丰富数据的主动式方法可及早发现漏洞,并为芯片分档、部署和集群级可靠性管理提供更明智的决策依据,同时不会显著增加成本或延迟。
随着 AI 持续扩展,未检测到的故障成本也将随之上升。静默数据损坏已不再是理论上的担忧,而是对性能、可靠性和业务成果构成的实质性风险。传统测试方法无法应对这一挑战,而结合深度数据、全生命周期监测和 AI 驱动分析的新解决方案则提供了清晰的前进路径。通过两阶段检测方法,行业终于能够在 SDC 干扰我们最依赖的系统之前,主动防范这一问题。




评论