晶圆级芯片，是未来

作者：时间：2025-06-30 来源：半导体产业纵横

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

今天，大模型参数已经以「亿」为单位狂飙。

本文引用地址：https://www.eepw.com.cn/article/202506/471845.htm

仅仅过了两年，大模型所需要的计算能力就增加了 1000 倍，这远远超过了硬件迭代的速度。目前支持 AI 大模型的方案，主流是依靠 GPU 集群。

但单芯片 GPU 的瓶颈是很明显的：第一，单芯片的物理尺寸限制了晶体管数量，即便采用先进制程工艺，算力提升也逐渐逼近摩尔定律的极限；第二，多芯片互联时，数据在芯片间传输产生的延迟与带宽损耗，导致整体性能无法随芯片数量线性增长。

这就是为什么，面对 GPT-4、文心一言这类万亿参数模型，即使堆叠数千块英伟达 H100，依然逃不过「算力不够、电费爆表」的尴尬。

目前，业内在 AI 训练硬件分为了两大阵营：采用晶圆级集成技术的专用加速器（如 Cerebras WSE-3 和 Tesla Dojo）和基于传统架构的 GPU 集群（如英伟达 H100）。

晶圆级芯片被认为是未来的突破口。

晶圆级芯片，两大玩家

在常规的芯片生产流程中，一个晶圆会在光刻后被切割成许多小裸片（Die）并且进行单独封装，每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式，是依靠增加芯片面积，所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单 Die 尺寸大约是 26x33=858mm2，也就是接近曝光窗大小，但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变，成为了制约芯片算力增长的原因之一。

晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板，再将设计好的常规裸片在晶圆基板上进行集成与封装，从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密，从而形成带宽更高、延时更短的互连结构，相当于通过高性能互连与高密度集成构建了更大的算力节点。所以，相同算力下，由晶圆级芯片构建的算力集群占地面积对比 GPU 集群能够缩小 10-20 倍以上，功耗可降低 30% 以上。

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是 Cerebras。这家企业从 2015 年成立，自 2019 年推出了 WES-1，之后经过不断迭代，目前已经推出到第三代晶圆级芯片——WES-3。

WES-3 采用台积电 5nm 工艺，晶体管数量达到夸张的 4 万亿个，AI 核心数量增加到 90 万个，缓存容量达到了 44GB，可以支持高达 1.2PB 的片外内存。

WES-3 的能力可以训练比 GPT-4 和 Gemini 大 10 倍的下一代前沿大模型。四颗并联情况下，一天内即可完成 700 亿参数的调教，支持最多 2048 路互连，一天便可完成 Llama 700 亿参数的训练。

这些都是集成在一块 215mm×215mm=46,225mm2 的晶圆上。

如果这个对比还不够明显，那可以这么看：对比英伟达 H100，WES-3 的片上内存容量是 H100 的 880 倍、单芯片内存带宽是 H100 的 7000 倍、核心数量是 H100 的 52 倍，片上互连带宽速度是 H100 的 3715 倍。

另一家是特斯拉。特斯拉的晶圆级芯片被命名为 Dojo。这是马斯克在 2021 年就开始的尝试。

特斯拉 Dojo 的技术路线和 Cerebras 不一样。是通过采用 Chiplet 路线，在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒（裸 Die）。

D1 芯粒在 645 平方毫米的芯片上放置了 500 亿个晶体管，单个芯粒可以提供 362 TFlops BF16/CFP8 的计算能力。合起来的单个 Dojo 拥有 9Petaflops 的算力，以及每秒 36TB 的带宽。

特斯拉的 Dojo 系统专门针对全自动驾驶 (FSD) 模型的训练需求而定制。思路是从 25 个 D1 芯粒→1 个训练瓦（Training Tile）→6 个训练瓦组成 1 个托盘→2 个托盘组成 1 个机柜→10 个机柜组成 1 套 ExaPOD 超算系统，能够提供 1.1EFlops 的计算性能。

晶圆级芯片与 GPU 对比

既然单芯片 GPU 和晶圆级芯片走出了两条岔路，在这里我们以 Cerebras WSE-3、Dojo 和英伟达 H100 为例，对比一下两种芯片架构对算力极限的不同探索。

一般来说 AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估：每秒浮点运算次数 (FLOPS) ，表明 GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽，决定了访问和处理数据的速度，直接影响训练效率。延迟和吞吐量，能够评估 GPU 处理大数据负载和模型并行性的效率，从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构，在 AI 模型训练中展现独特潜力。

一般来讲，每秒浮点运算次数 (FLOPS) 能够表明 GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS，支持训练高达 24 万亿参数的 AI 模型，且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构（可能造成处理瓶颈）的传统 GPU 不同，WSE 的设计使 850 个核心可独立运行，并直接访问本地内存，这样就有效提升了计算吞吐量。

在这方面，英伟达 H100 采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力，八个互连的 H100 GPU 组成的系统，可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题，虽然 NVLink 和 HBM3 内存能降低延迟，但在训练超大型模型时，GPU 间通信仍会影响训练速度。

在 AI 训练的表现中，Cerebras WSE-3 会更加擅长处理超大型模型。2048 个 WSE-3 系统组成的集群，训练 Meta 的 700 亿参数 Llama 2 LLM 仅需 1 天，相比 Meta 原有的 AI 训练集群，速度提升达 30 倍。

延迟与吞吐量

从数据传输来看，WSE-3 的单片架构避免了多芯片间的数据传输，显著降低延迟，支持大规模并行计算和核心间低延迟通信。速度快是单片的优势，与传统 GPU 集群相比，WSE-3 可将软件复杂度降低高达 90%，同时将实时 GenAI 推理的延迟降低 10 倍以上。

特斯拉 Dojo Training Tile 属于晶圆级集成，当然也能够大幅降低通信开销。由于是从 Die 到 Die 之间传递，在跨区块扩展时仍会产生一定延迟。目前，Dojo 能实现 100 纳秒的芯片间延迟，并且针对自动驾驶训练优化了吞吐量，可同时处理 100 万个每秒 36 帧的视频流。

英伟达 H100 基于 Hopper 架构，是目前最强大的 AI 训练 GPU 之一，配备 18,432 个 CUDA 核心和 640 个张量核心，并通过 NVLink 和 NVSwitch 系统实现 GPU 间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性，但数据传输会带来延迟问题，即便 NVLink 4.0 提供每个 GPU 900 GB/s 的双向带宽，延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量，但晶圆级系统如 WSE-3 和 Dojo 面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算？

从硬件购置成本来看，不同芯片的价格因架构和应用场景而异。

据报道，特斯拉单台 Tesla Dojo 超级计算机的具体成本估计在 3 亿至 5 亿美元之间。技术路线上，Dojo 采用的是成熟晶圆工艺再加上先进封装（采用了台积电的 Info_SoW 技术集成），去实现晶圆级的计算能力，能够避免挑战工艺极限。这既能保证较高的良品率，又便于实现系统的规模化生产，芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计，面临较高的初期研发和生产成本。据报道，Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间。

相比之下，英伟达单 GPU 的采购成本比较低。以英伟达 A100 来说，40GB PCIe 型号价格约 8,000 - 10,000 美元，80GB SXM 型号价格在 18,000 - 20,000 美元。这使得许多企业在搭建 AI 计算基础设施初期，更倾向于选择英伟达 GPU。不过，英伟达 GPU 在长期使用中存在能耗高、多芯片协作性能瓶颈等问题，会导致运营成本不断增加。

总体来看，虽然 WSE-2 能为超大规模 AI 模型提供超高计算密度，但对于需要在大型数据中心和云服务中部署多 GPU 可扩展方案的机构，A100 的成本优势更为明显。

结语

常规形态下，集群算力节点越多，则集群规模越大，花费在通信上的开销就越大，集群的效率就越低。

这就是为什么，英伟达 NVL72 通过提升集群内的节点集成密度（即提高算力密度）。在一个机架中集成了远超常规机架的 GPU 数量，使得集群的尺寸规模得到控制，效率才能实现进一步提升。

这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去，想要进一步提升算力密度，就会走到晶圆级芯片的路上。毕竟，晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。

晶圆级芯片，潜力无限。

新闻中心

晶圆级芯片，是未来

评论

相关推荐

技术专区