英特尔支持 AI 工作站配备新的 GPU 和 AI 加速器

作者：Luke James 时间：2025-05-27 来源：EEPW编译

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

在 Computex 2025 上，英特尔发布了其 AI 聚焦硬件组合的大规模更新，巩固了其在工作站和数据中心市场的地位。随着 Arc Pro B 系列 GPU 和第三代 Gaudi AI 加速器的推出，英特尔正在将专业级的 AI 计算带给更广泛的开发者、创作者和企业用户。

本文引用地址：https://www.eepw.com.cn/article/202505/470883.htm

Arc Pro B 系列：针对边缘 AI 工作流的加速器

新推出的 Arc Pro B60 和 B50 显卡基于英特尔 Xe2 架构，并配备了集成的 XMX 核心，英特尔为 AI 优化的向量和矩阵处理单元。这些显卡是为建筑、工程和创意行业的 AI 推理和设计工作负载而专门设计的。

这两款显卡都支持 PCIe 5.0 x8 连接和容器化的 Linux AI 部署堆栈。

旗舰级的 Arc Pro B60 配备了 20 个 Xe 核心、160 个 XMX 引擎，以及通过 192 位总线连接的 24 GB GDDR6 内存，提供 456 GB/s 的内存带宽和 197 TOPS（INT8）性能。B60 的功耗在 120 W 到 200 W 之间，支持多显卡扩展，并获得了 SolidWorks、Maya 和 Blender 等主要 ISV 平台的认证。

同时，B50 提供了更节能的解决方案，功耗为 70W，拥有 16 个 Xe 核心和 128 个 XMX 引擎，提供 170 TOPS。它配备了 16GB 的 GDDR6 内存，通过 128 位总线（带宽 224 GB/s），使其适用于轻量级 AI 任务，如图像上采样或紧凑型工作站中的 CAD 加速。

Gaudi 3：企业级 AI 的重型选手

在高端市场，英特尔推出了其 Gaudi 3 加速器，这是一款双芯片处理器，旨在处理生成式 AI 训练和大规模实时推理的需求。基于台积电的 5 纳米工艺，Gaudi 3 (白皮书链接) 拥有 8 个矩阵乘法引擎、64 个张量处理器核心，以及 128GB 的 HBM2e 内存，带宽为 3.7 TB/s。

其计算能力达到 1.8 PFLOPs，适用于 FP8 和 BF16 工作负载，与 Gaudi 2 相比，在架构上有显著改进，例如 MME 数量翻倍、内存带宽提升 1.5 倍，以及能效提升 40%。英特尔声称，Gaudi 3 在 LLM 训练中比英伟达的 H100 高出 1.7 倍，并在 Llama2-13 B 等关键工作负载中的推理效率高出 2.3 倍。

这些液冷系统针对分布式 AI 集群的持续性能进行了优化。

Gaudi 3 的一个关键差异化是其集成网络。每颗芯片包含 24 个支持 RDMA 的 200 Gbps 以太网端口，支持 All2All 扩展拓扑，具有 1.05 TB/s 的双向节点内带宽和 150 GB/s 的节点间扩展。这种基于开放以太网的织物避免了供应商锁定，并简化了在不使用专有交换机的情况下扩展到最多 512 个节点。

Intel AI Assistant Builder

补充新的芯片，Intel 的 AI 助手构建器已退出测试版，现可在 GitHub 上使用。这个开放框架允许开发者在 Intel 系统的本地构建和运行轻量级 AI 代理。结合容器化的 Linux 支持和 ISV 认证的驱动程序，Intel 的软件生态系统正紧密地与其硬件路线图保持一致。

Arc Pro 系列支持 Windows 上的消费者和专业驱动程序堆栈，而 Gaudi 3 则利用了 Habana Synapse AI SDK，该 SDK 包括对 PyTorch、TensorFlow 和 ONNX 的原生支持。这些工具针对 MME 和 TPC 引擎的架构特点进行了优化，并能在计算管道中混合工作负载实现粒度调度。

虽然 Nvidia 仍然主导 AI 计算领域，但 Intel 的新 GPU 和 AI 加速器提供了一个有吸引力的替代方案，特别是对于那些寻求开放标准、灵活扩展和高效大型模型部署的客户。预计在 2025 年下半年实现商业可用性，Intel 的 AI 加速产品组合似乎已准备好挑战现有市场领导者。