股价大涨!1530亿晶体管,AMD发布史上最大、最强芯片!多项指标数倍于H100,打响挑战英伟达第一枪!
AMD 利用有史以来最先进的量产技术打造了 MI300 系列产品,采用 "3.5D "封装等新技术生产出两款多芯片巨型处理器,并称可在各种 AI 工作负载中提供与 Nvidia 不相上下的性能。其中有多项性能指标评测数倍于竞争对手英伟达的H100。AMD 没有透露其新的奇特芯片的价格,但这些产品现已向众多 OEM 合作伙伴发货。
Instinct MI300 是一种改变游戏规则的设计 - 数据中心 APU 混合了总共 13 个小芯片,其中许多是 3D 堆叠的,以创建一个具有 24 个 Zen 4 CPU 内核并融合了 CDNA 3 图形引擎和 8 个堆栈的芯片HBM3。总体而言,该芯片拥有 1530 亿个晶体管,是 AMD 迄今为止制造的最大芯片。AMD 声称该芯片在某些工作负载中的性能比 Nvidia H100 GPU 高出 4 倍,并宣称其每瓦性能是其两倍。
AMD 表示,其 Instinct MI300X GPU 在人工智能推理工作负载中的性能比 Nidia H100 高出 1.6 倍,并在训练工作中提供类似的性能,从而为业界提供了急需的 Nvidia GPU 的高性能替代品。此外,这些加速器的 HBM3 内存容量是 Nvidia GPU的两倍以上(每个 192 GB 令人难以置信),使其 MI300X 平台能够支持每个系统两倍以上的 LLM 数量,并运行比 Nvidia H100 HGX 更大的模型。
AMD Instinct MI300XMI300X代表了 AMD 基于小芯片的设计方法的顶峰,将八个 12Hi 堆栈的 HBM3 内存与八个 3D 堆栈的 5nm CDNA 3 GPU 小芯片(称为 XCD)融合在四个底层 6nm I/O 芯片上,这些芯片使用 AMD 现已成熟的技术进行连接混合键合技术。






MI300X 加速器设计用于在 AMD 的生成式 AI 平台中以 8 个为一组工作,GPU 之间通过 Infinity Fabric 互联实现 896 GB/s 的吞吐量。该系统拥有 1.5TB 的 HBM3 内存,性能高达 10.4 Petaflops(BF16/FP16)。该系统基于开放计算项目(OCP)通用底板(UBB)设计标准构建,从而简化了采用过程,特别是对于超大规模用户而言。
与 Nvidia 的 H100 HGX 平台(BF16/FP16)相比,AMD 的 MI300X 平台内存容量增加了 2.4 倍,计算能力提高了 1.3 倍,同时还保持了相当的双向和单节点环带宽。AMD 为 MI300X 平台配备了 400GbE 网络,并支持多种网卡,而 Nvidia 则倾向于使用其收购 Mellanox 后生产的自有网络产品。





AMD 的 MI300X 平台在 300 亿参数 MPT 训练工作负载中提供的性能与 H100 HGX 系统大致相同,但需要注意的是,此测试并不是加速器的一对一比较。相反,该测试让八个加速器组相互竞争,因此平台级功能更像是一个限制因素。无论哪种情况,这种性能都会很快引起受到 Nvidia GPU短缺困扰的行业的兴趣。
在平台功能方面,AMD 还宣称,MI300X 平台的内存容量优势允许托管的 300 亿参数训练模型和 700 亿数推理模型数量是 H100 系统的两倍。此外,MI300X 平台还可支持多达 70B 的训练模型和 2900 亿参数的推理模型,两者都是 H100 HGX 所支持模型的两倍。当然,Nvidia 即将推出的 H200 GPU在内存容量和带宽方面将更具竞争力,而计算性能将与现有的 H100 保持相似。Nvidia 要到明年才会开始发货 H200,因此与 MI300X 的竞争仍然存在。AMD Instinct MI300AAMD Instinct MI300A 是全球首款数据中心 APU,这意味着它将 CPU 和 GPU 结合在同一个封装中。它将直接与Nvidia 的 Grace Hopper Superchips竞争,后者的 CPU 和 GPU 位于单独的芯片封装中,可以协同工作。MI300A 已经在El Capitan 超级计算机中取得了显著的胜利,AMD 已经将该芯片运送给其合作伙伴。






MI300A 的默认 TDP 为 350W,但可配置为最高 760W。AMD 根据使用情况在芯片的 CPU 和 GPU 部分之间动态分配功率,从而优化性能和效率。AMD 尽可能巧妙地重复利用:MI300A 插入 AMD 的标准 LGA6096 插槽,就像 EPYC Genoa 处理器一样,但该插槽的 SH5 版本与使用 SP5 的 AMD EPYC 处理器在电气上不兼容。内存空间在 CPU 和 GPU 之间共享,从而消除了数据传输。该技术通过消除单元之间的数据传输来提高性能和能源效率,同时还减少编码负担。与 MI300X 一样,该芯片具有中央 256MB Infinity Cache,有助于确保流经芯片的数据的带宽和延迟。AMD 声称 FP64 Matrix/DGEMM 和 FP64/FP32 Vector TFLOPS 比 H100 高出 1.8 倍。该公司还声称 TF32、FP16、BF16、FP8 和 INT8 与 H100 相同。







5nm XCD GPU 芯片标志着 AMD GPU 设计的全面小芯片化。与 MI200 中使用的小芯片表现为两个独立的设备不同,MI300 小芯片则是表现为一个单片 GPU。每个 XCD 有 40 个物理 CDNA3 计算单元,但只有 38 个被激活(这有助于解决良率问题)。每个 38-CU 小芯片都有 4MB 共享 L2 (16x 256KB)。XCD 和 IOD 具有硬件辅助机制,可将作业分解为更小的部分、分派它们并保持它们同步,从而减少主机系统开销。这些单元还具有硬件辅助的缓存一致性。上图中的最后一张PPT展示了 CDNA 3 计算单元的增强功能和性能。








该公司在这种现已成熟的混合键合技术方面积累的长期经验使其有信心在 MI300 处理器中继续采用该技术。与由 3D V-Cache和标准型号组成的 AMD 消费类 PC 芯片系列相比,MI300 处理器代表该公司首次在整个产品堆栈中完全依赖该技术。 总体而言,SoC 连接可在各种 3D 堆叠单元中提供高达 17 TB/s 的垂直带宽。SoIC 尺寸为 13x29mm。 专辑最后一张PPT中的剖面图展示了 3.5D 封装方法的复杂性和美妙之处。。它说明了如何从底部使用有机基板、上方具有金属布线和 TSV 的 CoWos 无源硅中介层,以及采用混合键合(9 微米间距)的 3D 堆叠 IOD 和 XCD 来构建封装。将有机基板与硅中介层(底部)配合的巨大铜凸块突出了 3D 堆叠部分的顶部和底部芯片(靠近顶部)之间几乎不可见的混合键合连接是多么小和密集。芯片)。混合键合技术需要减薄芯片以暴露 TSV,以便它们可以配对。因此,AMD 必须在封装顶部采用硅垫片以保持结构完整性,就像其他配备 3D V-Cache 的处理器一样。





来源:EETOP
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。