新闻中心

EEPW首页 > EDA/PCB > 市场分析 > 晶圆级芯片,是未来

晶圆级芯片,是未来

作者: 时间:2025-06-30 来源:半导体产业纵横 收藏

今天,大模型参数已经以「亿」为单位狂飙。

本文引用地址:https://www.eepw.com.cn/article/202506/471845.htm

仅仅过了两年,大模型所需要的计算能力就增加了 1000 倍,这远远超过了硬件迭代的速度。目前支持 AI 大模型的方案,主流是依靠 GPU 集群。

但单芯片 GPU 的瓶颈是很明显的:第一,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;第二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。

这就是为什么,面对 GPT-4、文心一言这类万亿参数模型,即使堆叠数千块英伟达 H100,依然逃不过「算力不够、电费爆表」的尴尬。

目前,业内在 AI 训练硬件分为了两大阵营:采用晶圆级集成技术的专用加速器(如 Cerebras WSE-3 和 Tesla Dojo)和基于传统架构的 GPU 集群(如英伟达 H100)。

被认为是未来的突破口。

,两大玩家

在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并且进行单独封装,每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式,是依靠增加芯片面积,所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单 Die 尺寸大约是 26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变,成为了制约芯片算力增长的原因之一。

则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密,从而形成带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。所以,相同算力下,由晶圆级芯片构建的算力集群占地面积对比 GPU 集群能够缩小 10-20 倍以上,功耗可降低 30% 以上。

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是 Cerebras。这家企业从 2015 年成立,自 2019 年推出了 WES-1,之后经过不断迭代,目前已经推出到第三代晶圆级芯片——WES-3。

WES-3 采用台积电 5nm 工艺,晶体管数量达到夸张的 4 万亿个,AI 核心数量增加到 90 万个,缓存容量达到了 44GB,可以支持高达 1.2PB 的片外内存。

WES-3 的能力可以训练比 GPT-4 和 Gemini 大 10 倍的下一代前沿大模型。四颗并联情况下,一天内即可完成 700 亿参数的调教,支持最多 2048 路互连,一天便可完成 Llama 700 亿参数的训练。

这些都是集成在一块 215mm×215mm=46,225mm2 的晶圆上。

如果这个对比还不够明显,那可以这么看:对比英伟达 H100,WES-3 的片上内存容量是 H100 的 880 倍、单芯片内存带宽是 H100 的 7000 倍、核心数量是 H100 的 52 倍,片上互连带宽速度是 H100 的 3715 倍。

另一家是特斯拉。特斯拉的晶圆级芯片被命名为 Dojo。这是马斯克在 2021 年就开始的尝试。

特斯拉 Dojo 的技术路线和 Cerebras 不一样。是通过采用 Chiplet 路线,在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒(裸 Die)。

D1 芯粒在 645 平方毫米的芯片上放置了 500 亿个晶体管,单个芯粒可以提供 362 TFlops BF16/CFP8 的计算能力。合起来的单个 Dojo 拥有 9Petaflops 的算力,以及每秒 36TB 的带宽。

特斯拉的 Dojo 系统专门针对全自动驾驶 (FSD) 模型的训练需求而定制。思路是从 25 个 D1 芯粒→1 个训练瓦(Training Tile)→6 个训练瓦组成 1 个托盘→2 个托盘组成 1 个机柜→10 个机柜组成 1 套 ExaPOD 超算系统,能够提供 1.1EFlops 的计算性能。

晶圆级芯片与 GPU 对比

既然单芯片 GPU 和晶圆级芯片走出了两条岔路,在这里我们以 Cerebras WSE-3、Dojo 和英伟达 H100 为例,对比一下两种芯片架构对算力极限的不同探索。

一般来说 AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估:每秒浮点运算次数 (FLOPS) ,表明 GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽,决定了访问和处理数据的速度,直接影响训练效率。延迟和吞吐量,能够评估 GPU 处理大数据负载和模型并行性的效率,从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构,在 AI 模型训练中展现独特潜力。

一般来讲,每秒浮点运算次数 (FLOPS) 能够表明 GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS,支持训练高达 24 万亿参数的 AI 模型,且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构(可能造成处理瓶颈)的传统 GPU 不同,WSE 的设计使 850 个核心可独立运行,并直接访问本地内存,这样就有效提升了计算吞吐量。

在这方面,英伟达 H100 采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力,八个互连的 H100 GPU 组成的系统,可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题,虽然 NVLink 和 HBM3 内存能降低延迟,但在训练超大型模型时,GPU 间通信仍会影响训练速度。

在 AI 训练的表现中,Cerebras WSE-3 会更加擅长处理超大型模型。2048 个 WSE-3 系统组成的集群,训练 Meta 的 700 亿参数 Llama 2 LLM 仅需 1 天,相比 Meta 原有的 AI 训练集群,速度提升达 30 倍。

延迟与吞吐量

从数据传输来看,WSE-3 的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度快是单片的优势,与传统 GPU 集群相比,WSE-3 可将软件复杂度降低高达 90%,同时将实时 GenAI 推理的延迟降低 10 倍以上。

特斯拉 Dojo Training Tile 属于晶圆级集成,当然也能够大幅降低通信开销。由于是从 Die 到 Die 之间传递,在跨区块扩展时仍会产生一定延迟。目前,Dojo 能实现 100 纳秒的芯片间延迟,并且针对自动驾驶训练优化了吞吐量,可同时处理 100 万个每秒 36 帧的视频流。

英伟达 H100 基于 Hopper 架构,是目前最强大的 AI 训练 GPU 之一,配备 18,432 个 CUDA 核心和 640 个张量核心,并通过 NVLink 和 NVSwitch 系统实现 GPU 间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性,但数据传输会带来延迟问题,即便 NVLink 4.0 提供每个 GPU 900 GB/s 的双向带宽,延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量,但晶圆级系统如 WSE-3 和 Dojo 面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算?

从硬件购置成本来看,不同芯片的价格因架构和应用场景而异。

据报道,特斯拉单台 Tesla Dojo 超级计算机的具体成本估计在 3 亿至 5 亿美元之间。技术路线上,Dojo 采用的是成熟晶圆工艺再加上先进封装(采用了台积电的 Info_SoW 技术集成),去实现晶圆级的计算能力,能够避免挑战工艺极限。这既能保证较高的良品率,又便于实现系统的规模化生产,芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本。据报道,Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间。

相比之下,英伟达单 GPU 的采购成本比较低。以英伟达 A100 来说,40GB PCIe 型号价格约 8,000 - 10,000 美元,80GB SXM 型号价格在 18,000 - 20,000 美元。这使得许多企业在搭建 AI 计算基础设施初期,更倾向于选择英伟达 GPU。不过,英伟达 GPU 在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。

总体来看,虽然 WSE-2 能为超大规模 AI 模型提供超高计算密度,但对于需要在大型数据中心和云服务中部署多 GPU 可扩展方案的机构,A100 的成本优势更为明显。

结语

常规形态下,集群算力节点越多,则集群规模越大,花费在通信上的开销就越大,集群的效率就越低。

这就是为什么,英伟达 NVL72 通过提升集群内的节点集成密度(即提高算力密度)。在一个机架中集成了远超常规机架的 GPU 数量,使得集群的尺寸规模得到控制,效率才能实现进一步提升。

这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去,想要进一步提升算力密度,就会走到晶圆级芯片的路上。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。

晶圆级芯片,潜力无限。



关键词: 晶圆级芯片

评论


技术专区

关闭