英伟达GPU被发现严重漏洞

作者：时间：2025-07-22 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

针对英伟达GPU（搭载GDDR6显存）黑客发现通过名为GPUHammer漏洞，这是一种Rowhammer（行锤攻击）攻击变体，可将英伟达显卡上AI模型的准确率从80%直接掉到0.02%。多伦多大学的研究人员形容，这种攻击就像在模型中引发灾难性的脑损伤。

目前，该漏洞已在RTX A6000显卡上测试验证，不过H100或RTX5090不受影响，因为它们有片上ECC（系统级纠错码）。英伟达建议用户实施一项防御措施，但这种措施会让模型性能下降10%。

截屏2025-07-21 22.35.48.png

物理层面的攻击

该攻击由多所大学研究人员首次实证验证，可通过诱发GPU显存中的比特翻转（bit flip）现象，即通过反复“锤击”某一行内存，导致相邻行的比特位发生翻转（0变1或1变0），从而实现对AI模型等关键数据的破坏性篡改。这一物理层面的攻击方式在现代GPU内存架构中极具破坏性，类似于针对CPU的Spectre和Meltdown击，标志着这类曾广泛威胁DRAM和CPU的硬件漏洞正在向GPU扩散，对AI基础设施的构成重大风险。

在共享GPU平台（如云端机器学习平台、VDI虚拟桌面等）中，这种攻击还可能演变为跨租户风险：攻击者无需直接访问他人模型，仅凭显存中可控的干扰就能操控邻近任务的模型权重，诱导其输出错误判断。GPUHammer的影响远不止于数据中心训练节点 —— 边缘计算设备、自主驾驶系统、金融风控引擎等也大量依赖GPU并实时推理。如果这些系统遭到显存层级的「静默破坏」，可能出现无法逆转的误判或合规失误。

如何防御？

为防范GPUHammer攻击，英伟达建议用户通过命令nvidia-smi-e1启用ECC功能，并使用nvidia-smi-q|grep ECC验证状态，通过为数据附加额外的校验位，可自动检测并修复单比特翻转。不过它只能修复单个比特错误，遇上双比特翻转，只能发出警告无法修复。

研究团队表示，系统一般默认禁用ECC，因为ECC启用后可能导致A6000显卡推理性能下降约10%、显存减少6.25%，但其在AI模型完整性方面的保护能力至关重要。这是一场权衡：安全与速度，只能二选一。