华为Ascend 910D志在与英伟达Blackwell和Rubin GPU竞争
据路透社报道,华为的下一代海思昇腾 910D AI 处理器有望提供比英伟达 H100 更好的性能。与 Nvidia 的 Blackwell B200 和 Blackwell Ultra B300 GPU 相比,新处理器在芯片上的速度会更慢,更不用说计划于明年推出的下一代 Rubin GPU。然而,华为构建具有数百个处理器的 Pod 的方法应该允许 Ascend 910D 与基于 Nvidia 当前 Blackwell 和即将推出的 Rubin GPU 的 Pod 竞争。
华为正准备开始测试其最先进的人工智能处理器 Ascend 910D,其性能目标是超越 Nvidia 的 H100,并在美国出口限制的情况下提供国内替代方案。据消息人士透露,华为已经接触了几家当地公司,以评估新的 Ascend 910D 芯片是否满足性能和部署要求。初步样品预计将于 5 月下旬推出。
另外,华为计划最早在下个月开始向中国客户大规模交付其双小芯片 Ascend 910C AI 处理器(可能还有基于这些芯片的完整系统)。达到 Nvidia H100 性能水平对华为来说并不容易。该公司最新的双芯片 Ascend 910C 提供约 780 BF16 TFLOPS 的性能,而 Nvidia 的 H100 可提供约 2,000 BF16 TFLOPS。为了达到 H100 的性能水平,华为将不得不重新设计 Ascend 910D 的内部架构,并可能增加计算小芯片的数量。
为了在明年的 AI 行业保持竞争力,华为必须实现与美国开发的 AI 集群相当的性能。今年,该公司推出了配备 384 个 Ascend 910C 处理器的 CloudMatrix 384 系统。据报道,它可以在某些工作负载中击败 Nvidia 的 GB200 NVL72,但由于每瓦性能大大降低,因此功耗明显更高。它还拥有比 NVL72 机架多五倍多的“AI 处理器”。互连是否能够很好地扩展到所需的处理器数量还有待观察。
如果无法获得领先的工艺技术,华为明年要保持竞争地位将变得更加困难。Nvidia 有望在 2026 年推出代号为 Rubin GPU 的 AI 和 HPC。Rubin GPU 将采用台积电的 N3(或更先进的)制造工艺制造,它们应该提供比当前一代 Blackwell GPU 更高的每瓦性能。
Rubin GPU 预计将提供约 8300 TFLOPS 的 FP8 训练性能,大概是 BF16 的一半,大约是 B200 性能的两倍。华为的 Ascend 910D 和配备 384 个此类处理器的下一代 CloudMatrix 系统理论上可以在机架级别提供有竞争力的 AI 性能。然而,Huaw 的性能如何还有待观察与现有产品相比,ei 的 Ascend 910D 和 Nvidia 的 Rubin GPU 将提供。另外,应该注意的是,Nvidia 几乎无法在中国销售其高性能 Rubin GPU,因此对于该市场,华为不会真正有直接的竞争对手。
无论性能或效率如何,华为的 Ascend 910D 处理器都可能成为未来几年中国 AI 训练的主力军。鉴于 AI 的战略重要性,Ascend 910D(或任何其他国产 AI 处理器)的功耗不会成为限制因素,因为部署的单元数量可能会抵消 Nvidia(或 AMD、Intel、Broadcom 等)的效率。AI 处理器。中国的主要限制因素将是其生产足够处理器的能力——无论是在国内还是在海外使用代理公司。
评论