英特尔AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜
Intel 今天正式推出了适用于 AI 工作负载的 Gaudi 3 加速器。新处理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢,因此英特尔将其 Gaudi 3 的成功押注在其较低的价格和较低的总拥有成本 (TCO) 上。
Intel 的 Gaudi 3 处理器使用两个小芯片,其中包含 64 个张量处理器内核(TPC、256x256 MAC 结构,带 FP32 累加器)、八个矩阵乘法引擎(MME,256 位宽矢量处理器)和 96MB 片上 SRAM 缓存,带宽为 19.2 TB/s。此外,Gaudi 3 还集成了 24 200 GbE 网络接口和 14 个媒体引擎,后者能够处理 H.265、H.264、JPEG 和 VP9 以支持视觉处理。该处理器配备 128GB HBM2E 内存,分为八个内存堆栈,提供 3.67 TB/s 的巨大带宽。
与 Gaudi 3 相比,英特尔的 Gaudi 2 代表了巨大的改进,Gaudi 2 具有 24 个 TPC、两个 MME 和携带 96GB 的 HBM2E 内存。但是,英特尔似乎简化了 TPC 和 MME,因为 Gaudi 3 处理器仅支持 FP8 矩阵运算以及 BFloat16 矩阵和向量运算(即不再有 FP32、TF32 和 FP16)。
在性能方面,英特尔表示,Gaudi 3 可以在 600W TDP 左右的情况下提供高达 1856 BF16/FP8 矩阵 TFLOPS 以及高达 28.7 BF16 矢量 TFLOPS。与 Nvidia 的 H100 相比,至少在纸面上,Gaudi 3 的 BF16 矩阵性能略低(1,856 对 1,979 TFLOPS),FP8 矩阵性能低两倍(1,856 对 3,958 TFLOPS),BF16 矢量性能明显较低(28.7 对 1,979 TFLOPS)。
比原始规格更重要的是 Gaudi 3 的实际性能。它需要与 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 处理器竞争。而这还有待观察,因为很大程度上取决于软件和其他因素。目前,英特尔展示了一些幻灯片,声称与 Nvidia 的 H3 相比,Gaudi 100 可以提供显着的性价比优势。
今年早些时候,英特尔表示,基于基板上八个 Gaudi 3 处理器的加速器套件将花费 125,000 美元,这意味着每个处理器的成本约为 15,625 美元。相比之下,Nvidia H100 卡目前的售价为 30,678 美元,因此英特尔确实计划比其竞争对手拥有很大的价格优势。然而,由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能优势,这家蓝色公司是否能够保持其相对于竞争对手的优势还有待观察。
“对 AI 的需求正在导致数据中心的大规模变革,该行业正在寻求硬件、软件和开发人员工具的选择,”英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说。随着我们推出具有 P-core(性能核)和 Gaudi 3 AI 加速器的 Xeon 6,Intel 正在实现一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施其所有工作负载。
英特尔的 Gaudi 3 AI 加速器将从 IBM Cloud 和 Intel Tiber Developer Cloud 获得。此外,基于英特尔至强 6 和高迪 3 的系统将于第四季度从戴尔、慧与和 Supermicro 全面上市,戴尔和 Supermicro 的系统将于 10 月发货,Supermicro 的机器将于 12 月发货。
评论