两个技术，困住英伟达GPU生产

发布人：旺材芯片时间：2023-07-09 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

来源：本文由半导体产业纵横（ID：ICVIEWS）编译自semianalysis

尽管Nvidia试图大幅增加产量，最高端的Nvidia GPU H100将一直售罄到明年第一季度。

生成人工智能即将到来，它将改变世界。自从ChatGPT 风靡全球并抓住了我们对 AI 可能性的想象力以来，我们看到各种各样的公司急于训练 AI 模型并将生成式 AI 部署到内部工作流程或面向客户的应用程序中。不仅仅是大型科技公司和初创公司，许多非科技财富5000强公司正在研究如何部署基于LLM的解决方案。

当然，这将需要大量的 GPU计算。GPU销量像火箭一样上升，供应链一直在努力跟上对GPU的需求。公司正在争先恐后地获得GPU或云实例。

即使是OpenAI也无法获得足够的GPU，这严重阻碍了其近期路线图。由于GPU短缺，OpenAI无法部署其多模态模型。由于 GPU短缺，OpenAI 无法部署更长的序列长度模型（8k 与 32k）。

与此同时，中国公司不仅投资部署自己的LLM，而且还在美国出口管制进一步收紧之前进行库存。例如，Tik Tok背后的中国公司字节跳动（Bytedance）据称从英伟达订购了价值超过10亿美元的A800 / H800。

最高端的Nvidia GPUH100将一直售罄到明年第一季度，尽管Nvidia试图大幅增加产量。英伟达将每季度出货400，000个H100 GPU。

今天，我们将详细介绍生产瓶颈以及英伟达及其竞争对手的下游产能正在扩大多少。

英伟达的H100采用CoWoS-S上的7芯片封装。中间是H100 GPU ASIC，其芯片尺寸为814mm2。不同SKU之间的HBM配置有所不同，但H100 SXM版本使用HBM3，每个堆栈为16GB，总内存为80GB。H100 NVL将具有两个封装，每个封装上有6个HBM有源层。

在只有5个有源HBM的情况下，非HBM芯片可以为芯片提供结构支持。这些芯片位于一个在图片中看不清楚的硅插入物之上。该硅插入物位于一个封装衬底上，该封装衬底是一个ABF封装衬底。

GPU芯片和台积电制造

英伟达GPU的主要数字处理组件是处理器芯片本身，在名为“4N”的定制台积电工艺节点上制造。它在台积电位于中国台湾台南的Fab 18制造，与台积电N5和N4工艺节点共享相同的设施。这不是生产的限制因素。

台积电N5工艺节点的利用率降至70%以下，原因是PC、智能手机和非AI相关数据中心芯片的巨大疲软，英伟达在确保额外的晶圆供应方面没有问题。

事实上，英伟达已经订购了大量用于H100 GPU和NVSwitch的晶圆，这些晶圆立即开始生产，远远早于它们需要出货芯片。这些晶圆将存放在台积电的芯片组中，直到下游供应链有足够的能力将这些晶圆封装成完整的芯片。

基本上，英伟达正在吸收台积电的一些低利用率，并获得一些定价优势，因为英伟达已承诺在未来购买成品。

晶圆库，也称为芯片库，是半导体行业的一种做法，其中部分加工或完成的晶圆被存储，直到客户需要它们。与其他一些代工厂不同，台积电将通过将这些晶圆保存在自己的账簿上几乎完全加工来帮助他们的客户。这种做法使台积电及其客户能够保持财务灵活性。由于它们只是部分加工的，因此晶圆库中持有的晶圆不被视为成品，而是被归类为在制品。只有当这些晶圆完全完成时，台积电才能确认收入并将这些晶圆的所有权转让给客户。

这有助于客户装扮他们的资产负债表，使库存水平看起来得到控制。对于台积电来说，好处是它可以帮助保持更高的利用率，从而支持利润率。然后，当客户需要更多的库存时，这些晶圆可以通过几个最后的加工步骤完全完成，然后以正常的销售价格甚至轻微的折扣交付给客户。这有助于客户修饰他们的资产负债表，使库存水平看起来处于控制之中。对于台积电说，好处是可以帮助保持更高的利用率，从而支撑利润率。然后，随着客户需要更多库存，这些晶圆可以通过几个最终加工步骤完全完成，然后以正常销售价格甚至稍有扣的价格交付给客户。

HBM在数据中心的出现

GPU周围的高带宽内存是下一个主要组件。HBM供应量也有限，但正在增加。HBM是垂直堆叠DRAM芯片，通过硅通孔（TSV）连接，并使用TCB键合（未来需要更高的堆叠数量）。在DRAM芯片下面有一个基本逻辑作为控制器的管芯。通常，现代HBM有8层内存和1个基本逻辑芯片但是我们很快就会看到12+1层HBM的产品，例如AMD的MI300X和英伟达即将推出的H100更新。

有趣的是，是AMD开创了HBM，尽管NVIDIA和谷歌是今天最大的用户。在2008年，AMD预测，为了与游戏GPU性能相匹配，内存带宽的持续扩展将需要越来越多的电源，这将需要从GPU逻辑中转移，从而降低GPU的性能。AMD与SK Hynix和供应链中的其他公司(如Amkor)合作，寻找一种能提供高带宽、低功耗的内存解决方案。这导致SK Hynix在2013年开发HBM。

SK海力士于2015年首次为AMD Fiji系列游戏GPU提供HBM，该GPU由Amkor进行2.5D封装。随后在2017年推出了使用HBM2的Vega系列。然而，HBM 并没有改变游戏 GPU性能的游戏规则。由于没有明显的性能优势加上更高的成本，AMD在Vega之后重新使用GDDR作为其游戏卡。今天，来自Nvidia和AMD的顶级游戏GPU仍在使用更便宜的GDDR6。

然而，AMD的最初预测在某种程度上是正确的:扩展内存带宽已被证明是GPU的一个问题，只是这主要是数据中心GPU的问题。对于消费级游戏GPU，英伟达和AMD已转向使用大型缓存作为顿缓冲区，使它们能够使用带宽低得多的GDDR内存。

正如我们过去所详述的，推理和训练工作负载是内存密集型的。随着 AI 模型中参数数量的指数级增长，仅权重就将模型大小推高到 TB。因此，人工智能加速器的性能受到从内存中存储和检索训练和推理数据的能力的瓶颈：这个问题通常被称为内存墙。

为了解决这个问题，领先的数据中心 GPU与高带宽内存（HBM）共同打包。英伟达在2016年发布了他们的第一个HBM GPU，P100。HBM 通过在传统 DDR 内存和片上缓存之间找到中间地带来解决内存难题，以容量换取带宽。通过大幅增加引脚数，达到每个 HBM 堆栈 1024 位宽的内存总线，这是每个 DIMM 64 位宽度的 DDR5 的 18 倍，从而实现更高的带宽。同时，以极低的每比特传输能量（pJ/bit）来控制功率。这是通过更短的走线长度实现的，HBM 的走线长度以毫米为单位，GDDR和 DDR 的走线长度以厘米为单位。

如今，许多面向HPC的芯片公司正在享受AMD努力的成果。具有讽刺意味的是，AMD的竞争对手Nvidia作为HBM的最高用户可能受益最多。

HBM市场:SK海力士占据主导地位

作为HBM的先驱，SK Hynix是拥有最先进技术路线图的领导者。SK Hynix公司于2022年6月开始生产HBM 3，目前是唯一一家批量交付HBM 3的供应商，市场份额超过95%，这是大多数H 100 SKU正在使用的产品。HBM的最大配置现在8层16 GB HBM 3模块。SK Hynix为AMD MI300X和NVIDIA H 100刷新生产12层24 GB HBM 3，其数据率为5.6 GT/S。

HBM的主要挑战是封装和堆叠存储器，这是SK海力士所擅长的，积累了最强的工艺流程知识。

三星紧跟SK海力士之后，预计将在2023年下半年推出HBM 3。我们相信它们都是为NVIDIA和AMD GPU设计的。他们目前对SK Hynix的数量有很大的亏空，但他们正紧追不舍，正在进行巨大的投资以追赶市场份额。三星正在投资追赶HBM，成为HBM市场份额的第一名，就像他们拥有标准内存一样。我们听说他们正在与一些加速器公司达成有利的交易，以争取更多的份额。

他们已经展示了他们的12层HBM以及未来的混合粘结HBM.三星HBM-4路线图的一个有趣方面是，他们希望在内部的FinFET节点上实现逻辑/外围。这显示了他们在内部拥有逻辑和DRAM制造的潜在优势。

美光是最落后的。美光在混合内存立方体（HMC）技术上投入了更多的资金。这是一个与HBM竞争的技术，与HBM有着非常相似的概念。然而，HMC周围的生态系统是封闭的，使得IP很难在HMC周围发展。此外，还存在一些技术缺陷。HBM的采用率更高，因此HBM成为3D堆叠DRAM的行业标准。

直到2018年，美光才开始从HMC转向HBM路线图。这就是为什么美光是最落后的。他们仍然停留在HBM2E上（SK海力士在2020年中期开始大规模生产），甚至不能成功地制造顶盒HBM2E。

在他们最近的财报电话会议上，美光对他们的HBM路线图做了一些大胆的声明：他们相信他们将在2024年通过HBM3E从落后者变成领导者。HBM3E预计将在第三季度/第四季度开始为英伟达的下一代GPU出货。美光首席商务官SumitSadana表示：“我们的HBM3斜坡实际上是下一代HBM3，与当今业界生产的HBM3相比，它具有更高水平的性能、带宽和更低的功耗。该产品，即我们行业领先的产品，将从2024年第一季度开始销量大幅增加，并对2024财年的收入产生重大影响，并在2025年大幅增加，即使是在2024年的水平基础上。我们的目标是在HBM中获得非常强劲的份额，高于行业中DRAM的非自然供应份额。”

他们在HBM中拥有比一般DRMA市场份额更高的市场份额的声明非常大胆。鉴于他们仍在努力大批量生产顶级HBM2E，我们很难相信美光声称他们将在2024年初推出领先的HBM3，甚至成为第一个HBM3E。在我们看来，尽管英伟达 GPU服务器的内存容量比英特尔/AMD CPU服务器要低得多，但美光科技似乎正在试图改变人们对人工智能失败者的看法。

我们所有的渠道检查都发现SK海力士在新一代技术方面保持最强，而三星则非常努力地通过大幅供应增加、大胆的路线图和削减交易来追赶。

真正的瓶颈-CoWoS

下一个瓶颈是CoWoS容量。CoWoS是台积电的一种“2.5D”封装技术，其中多个有源硅芯片(通常的配置是逻辑和HBM堆栈）集成在无源硅中介层上。中介层充当顶部有源芯片的通信层。然后将内插器和有源硅连接到包含要放置在系统PCB上的I/O的封装基板。

HBM和CoWoS是相辅相成的。HBM的高焊盘数和短迹线长度要求需要2.5D先进封装技术，如CoWoS，以实现这种密集的短连接，这在PCB甚至封装基板上是无法实现的。CoWoS是主流封装技术，以合理的成本提供最高的互连密度和最大的封装尺寸。由于目前几乎所有的HBM系统都封装在Co Wos上，所有先进的人工智能加速器都使用HBM，因此几乎所有领先的数据中心GPU都是台积电封装在Co Wos上的。

虽然3D封装技术，如台积电的SoIC可以直接在逻辑上堆叠芯片，但由于热量和成本，它对HBM没有意义。SoIC在互连密度方面处于不同的数量级，更适合用芯片堆叠来扩展片内缓存，这一点可以从AMD的3D V-Cache解决方案中看出。AMD的Xilinx也是多年前将多个FPGA芯片组合在一起的第一批CoWoS用户。

虽然还有一些其他应用程序使用CoWoS，例如网络(其中一些用于网络GPU集群，如Broadcom的Jericho3-AI)、超级计算和FPGA，但绝大多数CoWoS需求来自人工智能。与半导体供应链的其他部分不同，其他主要终端市场的疲软意味着有足够的闲置空间来吸收GPU需求的巨大增长，CoWoS和HBM已经是大多数面向人工智能的技术，因此所有闲置空间已在第一季度被吸收。随着GPU需求的爆炸式增长，供应链中的这些部分无法跟上并成为GPU供应的瓶颈。

台积电首席执行官魏哲家表示：“就在最近这两天，我接到一个客户的电话，要求大幅增加后端容量，特别是在CoWoS中。我们仍在评估这一点。”

台积电一直在为更多的封装需求做好准备，但可能没想到这一波生成式人工智能需求来得如此之快。6月，台积电宣布在竹南开设先进后端晶圆厂6。该晶圆厂占地14.3公顷足以容纳每年100万片晶圆的3DFabric产能。这不仅包括CoWoS，还包括SoIC和InFO技术。

有趣的是，该工厂比台积电其他封装工厂的总和还要大。虽然这只是洁净室空间，远未配备齐全的工具来实际提供如此大的容量，但很明显，台积电正在做好准备，预计对其先进封装解决方案的需求会增加。

确实有点帮助的是，在Wafer级别的扇出封装能力(主要用于智能手机SoC)方面存在不足，其中一些可以在CoWoS过程中重新使用。特别是有一些重叠的过程，如沉积，电镀，反磨，成型，放置，和RDL形成。我们将通过CoWoS流程和所有的公司谁看到了积极的需求，因为它在一个后续部分。设备供应链中存在着有意义的转变。

还有来自英特尔、三星和OSAT的其他2.5D封装技术(如ASE的FOEB)，CoWoS是唯一在大容量中使用的技术，因为TSMC是人工智能加速器的最主要的晶圆厂。甚至英特尔哈巴纳的加速器都是由台积电制造和封装的。

CoWoS变体

CoWoS有几种变体，但原始CoWoS-S仍然是大批量生产中的唯一配置。这是如上所述的经典配置:逻辑芯片+HBM芯片通过带有TSV的硅基中介层连接。然后将中介层放置在有机封装基板上。

硅中介层的一项支持技术是一种称为“掩模版缝合”的技术。由于光刻工具狭缝/扫描最大尺寸，芯片的最大尺寸通常为26mmx33mm。随着GPU芯片本身接近这一极限，并且还需要在其周围安装HBM，中介层需要很大，并且将远远超出这一标线极限。台积电解决了这与网线拼接，这使他们的模式插入式多次的刻线限制(目前最高3.5倍与AMD MI 300)。