WAIC 2025最大看点，中国智算超节点，新亮相

作者：时间：2025-07-28 来源：半导体产业纵横

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

2025 世界人工智能大会（WAIC）的现场人头攒动。

一踏入 WAIC 的现场，就能感受到扑面而来的人气。无论是主会场还是各个分展区，到处都是攒动的身影。人们穿梭在不同的展品之间，而智算超节点的展台前，更是聚集了不少行业内的人士，他们或站着倾听讲解，或围着设备仔细观察。

今年的 WAIC 现场中，智算超节点在众多展品中显得尤为突出，华为的昇腾 384 超节点更是其中翘楚。但除了华为，中兴、新华三、超聚变等中国企业的超节点方案也纷纷亮相，共同上演了一场中国智算超节点的「集体秀」。

超节点是什么？

想要了解华为昇腾 384 超节点，就得先知道什么是超节点。

超节点这个概念最开始是英伟达提出的，英文名叫 SuperPod。

GPU 作为重要的算力硬件，为 AI 的训练和推理提供有力的支撑。但是随着大模型参数的不断增长，对于 GPU 集群的规模需求也就越来越大。

从之前的千卡集群，到现在的万卡集群，再到未来的十万卡集群。那么越来越大的 GPU 集群如何构建呢？

答案就是，Scale Up 和 Scale Out。

Scale Up，向上扩展，也叫做纵向扩展，增加的是单节点的资源数量。Scale Out，向外扩展，也就是横向扩展，增加节点的数量。简单理解，每台服务器里面多塞几块 GPU，这时一台服务器就是一个节点。在通过网络，将多台节点连接起来，就是 Scale Out。

超节点技术的核心就与此：

第一，突破单服务器限制。超节点允许把数十块甚至数百块 GPU 集成在一个机架内，形成「一个机架就是一个节点」。

第二，超带宽域（HBD）技术。通过 NVLink/UB 等高速互联技术，将 GPU 间通信时延压缩至百纳秒级（传统网络时延为 10 微秒），实现 GPU 间数据交换的无缝衔接。

第三，Scale Up 与 Scale Out 融合。既支持单节点内增加 GPU（纵向扩展），又能通过网络连接多节点（横向扩展），实现「乐高式」灵活搭建。

英伟达把这种以超大带宽互联 16 卡以上 GPU-GPU 的 Scale Up 系统，称为超节点。发展到现在，英伟达的 NVL72 超节点，可以把 36 个 Grace CPU 和 72 个 Blackwell GPU 集成到一个液冷机柜中，实现总计 720 PFLOPs 的 AI 训练性能，或 1440 PFLOPs 的推理性能。

在 WAIC 现场，中国企业也带来了自己的超节点方案。

华为昇腾 384 超节点

作为本次 WAIC 的「明星展品」，华为首次线下展出的昇腾 384 超节点（Atlas 900 A3 SuperPoD）堪称「巨无霸」。由 12 个计算柜和 4 个总线柜组成，集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 920 CPU，是目前业界规模最大的超节点。

昇腾 384 超节点集成了384 个昇腾 910C神经网络处理单元 (NPU) 和192 个鲲鹏920中央处理器 (CPU)。采用华为自研的 MatrixLink 高速互联技术，实现全对等互联。

从性能测试上看，在昇腾超节点集群上，LLaMA 3 等千亿稠密模型性能相比传统集群提升 2.5 倍以上；在通信需求更高的 Qwen、DeepSeek 等多模态、MoE 模型上，性能提升可达 3 倍以上，较业界其他集群高出 1.2 倍。

根据官方表示，这个算力平台基于 384 颗昇腾芯片构建，通过全互联对等架构实现芯片间高效协同，可提供高达 300 PFLOPs 的稠密 BF16 算力。这个方案性能接近英伟达 B200 NVL 72 平台的两倍。内存带宽达到 1229TB/s，总的内存容量超出英伟达方案的 3.6 倍。

关于大家关心的几个问题，我们也替大家问到了。

第一，在如此多芯片、机柜下，如何在不降低数据传输速递下，保证芯片的互连？

之前业内普遍采用以 CPU 为中心的冯·诺依曼结构，但华为昇腾超节点提出的是：对等计算架构。把总线从服务器内部，扩展到整机柜、甚至跨机柜。特点就是点对点、完全互联的超高带宽网络，通过 UB 协议连接所有 NPU 和 CPU。

并且，华为的 Scale Up 互联采用了去铜全光的方案。每个 GPU 用 7 个 400G LPO Sipho 光模块提供的 2800Gbit/s 带宽来实现 Scale Up 互联，合计 384 张 GPU 一共通过 4 个 CloudEngine Switch 的单层扁平拓扑实现互联。

工作人员向记者介绍，在超节点范围内，用高速总线互联替代传统以太，通信带宽提升了 15 倍；单跳通信时延也从 2 微秒做到 200 纳秒，降低了 10 倍。

第二，昇腾 384 超节点冷却方式是？

液冷加风冷的模式。对于 384 颗昇腾 910C 芯片采用冷板式液冷；对于电源、网卡等低功耗模块保留风冷设计。

第三，昇腾 384 超节点的客户是？

目前硅基流动基于昇腾 384 部署 DeepSeek-R1 模型，能够实现在单用户 20TPS 负载下实现 1920 tokens/秒的吞吐量，超越国际主流芯片的 1850 tokens/秒，且生成精度在知识问答、代码生成等任务中表现更优。

训练方面，华为内部的大模型，以及工行、邮储银行的内部大模型在使用昇腾 384 进行训练。此外，美团、字节、蚂蚁、京东、百度等是相关客户。

据记者了解，这个超节点可以进一步扩展为包含数万卡的 Atlas 900 SuperCluster 超节点集群。华为相关人士向记者介绍：「相当于我们用工程化的方案，弥补了技术和算力上的差距。」

中兴智算超节点方案

中兴通讯也有自家的超节点方案。在本次展台中展示的智算超节点，内部搭载的是百度昆仑心 P800，主打「高密度集成」。

中兴的智算超节点服务器，单机柜可搭载 64 个 GPU，内置 16 个计算节点，8 个交换节点，采用正交互联架构，降低互联成本，GPU 间通信带宽达到 400GB/S-1.6TB/S，时延达到百纳秒级，液冷占比达到 80%，机内 Scale up 可扩展至 2048 张算力卡，机间支持 Scale out 拓展至万卡规模。

中兴智算超节点方案能够适配英伟达的 AI 加速卡，也能够适配国内大多数 GPU 企业，如海光、寒武纪、沐曦、摩尔线程等。

据中兴工作人员介绍，中兴能够做到单机架节点集成 64 卡，而目前华为的单机架节点是 32 张卡。

新华三：UniPoD 超节点