新闻中心

EEPW首页 > 智能计算 > 设计应用 > 如何在AI系统中检测和纠正静默数据损坏?

如何在AI系统中检测和纠正静默数据损坏?

作者: 时间:2025-07-10 来源: 收藏

(SDC),有时称为位衰减或静默数据错误 (SDE),是指标准错误检查机制未到的数据错误,可能导致重大数据丢失或计算错误。SDC 可能导致训练不准确、预测错误和性能不可靠。 SDC 需要专门的技术和工具。

SDC 可以是瞬态的,也可以是随机的。瞬态 SDC 可能是由中微子或 α 粒子等辐射事件引起的。中微子和 α 粒子很难预测,更难阻止。幸运的是,它们也很罕见,对数据中心和大多数  系统中的 SDC 没有显著贡献。

SDC 更大、更严重的来源是由 IC 缺陷导致的永久性硬件故障。这就是本文的重点。

SDC 以每百万缺陷数 (DPM) 进行量化,并且通常存在于制造时,因此被称为“时间 0 缺陷”。先进 IC 的极小特征尺寸会加剧 SDC 的外观,使其无法消除。


图 1.微观缺陷会导致 IC 网络偏离理想状态,是 SDC 的原因之一。(图片:Asset))

特别是在高性能 IC 中,器件中许多点的小缺陷和边缘可能会导致结果不一致。DRAM、CPU 和 GPU 等 IC 上的图案化并不完美。即使是大小、形状和间距的轻微不规则也可能导致 SDC。这有时被称为“燕麦片”效应(图 1)。

当然,易受 SDC 影响的各种类型的 IC 并不是孤立使用的;它们是更大系统的一部分。最近的一项研究利用来自一组云数据中心的性能数据来检查内存中的 SDC 与其他系统组件之间的相关性。一些发现包括(图 2):


图 2.显示 SDC 某些原因之间相关性的热图。(图片:Meta Research)

  • 内存错误遵循 Pareto 分布,其中很大一部分效果来自少量来源。

  • 来自内存控制器和通道的非 DRAM 故障是大多数错误的原因。

  • 更新、更高密度的 DRAM 具有更高的故障率。

  • 芯片较少且传输宽度较小的 DIMM 错误率较低。

  • CPU 和内存利用率 (CPU%) 和 Memory% 分别与整体服务器故障率相关。

和缓解

一旦 IC 安装在系统中,检测和缓解 SDC 就具有挑战性。有些缺陷仅在温度、电压、频率和指令序列等因素的特定组合下发生。

在一个案例中,观察到 1% 的服务器负责所有可错误的 97.8%。减轻 SDC 影响的一种方法是使用冗余和容错架构,其中多个系统或处理器验证结果并验证数据。

这可能会很昂贵,并且会减慢整个系统的运行速度。另一种方法是在将潜在故障芯片集成到系统之前识别它们。

例如,Intel 的 Data Center Diagnostics Tool (DCDiag) 使用多种机制来识别 SDC。它基于重复执行作或计算并确认正确的结果。

由于这些测试明确确认了每个计算的正确性,因此它们改进了对导致 SDC 的缺陷部件的识别。其中一些测试包括确认内核到内核和套接字到套接字通信的准确性,以及运行复杂的浮点、整数和数据作指令。

开放计算项目 (OCP) 最近建立了服务器组件弹性工作流,以应对 SDC 日益增长的挑战。该工作流侧重于研究硬件引起的 SDC 以及开发有效的检测和缓解工具。工作流中涉及的初始成员包括 AMD、ARM、Google、Intel、Meta、Microsoft 和 NVIDIA。

总结

随着 训练和模型的复杂性不断增加,以及先进 IC 的特征尺寸不断缩小,SDC 是一个日益严重的问题。SDC 的主要原因是 IC 制造过程中出现的硬件中所谓的“零时间缺陷”。这增加了检测和减轻其影响的挑战。最近,OCP 建立了一个全行业范围的工作流程,以开发处理 SDC 的有效工具。


评论


相关推荐

技术专区

关闭