英伟达的中国版 A800 GPU 性能揭晓

作者：tomshardware时间：2023-05-09来源：半导体产业纵横收藏

去年 10 月，美国商务部对向中国供应芯片实施了全面限制，此后拜登 (Joe Biden) 政府已暗示可能实施进一步制裁。

本文引用地址：http://www.eepw.com.cn/article/202305/446345.htm

制裁导致中国企业与 AI 开发行业内最受欢迎的芯片英伟达 A100 无缘，今年 3 月份发布的下一代版本 H100 也是如此，后者提供更强大算力。

Nvidia A800 计算 GPU 是为中国市场制造的。根据 MyDrivers 的说法，A800 的运行速度是 A100 GPU 的 70%，同时符合严格的美国出口标准，该标准限制了 Nvidia 可以销售的处理能力。

Nvidia 的 A100 推出已经三年了，它为 HPC 提供 9.7 FP64/19.5 FP64 Tensor TFLOPS，为 AI 工作负载提供高达 624 BF16/FP16 TFLOPS（具有稀疏性）。即使减少了 30% 左右，这些数字看起来仍然令人生畏：6.8 FP64/13.7 FP64 Tensor TFLOPS 以及 437 BF16/FP16（具有稀疏性）。

尽管像 MyDrivers 所说的那样「阉割」（性能上限），但 Nvidia 的 A800 在计算能力方面与成熟的中国壁仞科技的 BR104 和 BR100 计算 GPU 完全不相上下。同时，Nvidia 的计算 GPU 及其 CUDA 架构得到其客户运行的应用程序的广泛支持，而壁仞科技的处理器尚未被采用。由于最新规定，甚至壁仞科技也无法将其成熟的计算 GPU 运送到中国。

美国于 2021 年 10 月实施的出口规则禁止向中国出口允许在 41,600 立方英尺（1,178 立方米）或更小空间内性能超过 100 FP64 PetaFLOPS 或 200 FP32 PetaFLOPS 的超级计算机的美国技术。虽然出口限制并未具体限制出售给中国实体的每个计算 GPU 的性能，但它们限制了它们的吞吐量和可扩展性。

新规定生效后，英伟达无法在没有出口许可证的情况下向中国客户销售其超高端 A100 和 H100 计算 GPU，而出口许可证很难获得。为了满足中国超大规模用户对性能的需求，该公司推出了其 A100 GPU 的精简版 A800。到目前为止，还不清楚这款 GPU 的性能如何。

随着人工智能在消费者和企业中的使用越来越多，能够处理适当工作负载的高性能硬件正在蓬勃发展。Nvidia 是 AI 大趋势的主要受益者之一，这就是为什么其 GPU 的需求如此之高，以至于即使是精简版 A800 在中国也已售罄。

壁仞科技的 BR100 将采用 OAM 外形，功耗高达 550W。该芯片支持该公司专有的 8 路 Blink 技术，允许每个系统安装多达八个 BR100 GPU。相比之下，300W BR104 将采用 FHFL 双宽 PCIe 卡外形并支持多达 3 路多 GPU 配置。据 EETrend 报道，这两款芯片都使用 PCIe 5.0 x16 接口，顶部带有用于加速器的 CXL 协议。

壁仞科技表示，其两款芯片均采用台积电的 7nm 级制造工艺制造（未详细说明是使用 N7、N7+ 还是 N7P）。更大的 BR100 包含 770 亿个晶体管，超过了同样使用台积电 N7 节点之一制造的 Nvidia A100 的 542 亿个。该公司还表示，为了克服台积电光罩尺寸的限制，它必须使用小芯片设计和代工厂的 CoWoS 2.5D 技术，这是完全合乎逻辑的，因为 Nvidia 的 A100 接近光罩尺寸，而 BR100 应该是均匀的更大，因为它的晶体管数量更多。

鉴于规格，我们可以推测 BR100 基本上使用两个 BR104，尽管开发人员尚未正式证实这一点。

为了将其 BR100 OAM 加速器商业化，壁仞科技与 Inspur 合作开发了一款 8 路 AI 服务器，该服务器将于 2022 年第四季度开始提供样品。百度和中国移动将成为首批使用壁仞科技计算 GPU 的客户。

新加坡国立大学 (National University of Singapore) 教授尤洋表示，许多中国公司现在正在研究组合三、四块性能相对较差的芯片，包括 A800 和 H800，来替代英伟达最先进的处理器。尤洋运营着 AI 基础设施公司 HPC-AI Tech。

尤洋说，这正促使一些公司加速开发技术，使用不同类型的芯片来训练大规模 AI 模型。此前这一研究领域在硬件资源有限、渴望降低成本的中国公司中已经很普遍。论文显示，阿里巴巴、百度和华为已在寻求使用 A100、老一代英伟达芯片 V100 和 P100 以及华为昇腾芯片的各种组合。

AI 专家说，相比之下，同时使用多种类型芯片的情况在美国公司中很少见，因为要让不同类型芯片可靠地协同工作存在技术挑战。Meta 的 Zhang 说，这是万不得已的最后手段。

与此同时，中国公司也正在研究使用各种软件技术来降低训练大规模 AI 模型的计算强度，这种方法已在全球范围内加速推广，包括在美国公司中。不过，论文显示，与美国公司不同，中国公司在结合使用多种软件技术方面更加积极主动。

虽然其中许多方法在全球研究界仍处于不断完善中、难以实施，但中国研究人员已取得了一些成功。

在今年 3 月的一篇论文中，华为研究人员展示了他们如何利用这种技术，只使用该公司的昇腾芯片而不是英伟达的芯片，来训练其最新一代大语言模型。研究人员在论文中写道，尽管存在一些缺点，但这个名为盘古的大语言模型在处理阅读理解和语法挑战等一些中文任务上都具有最先进性能。

新闻中心

英伟达的中国版 A800 GPU 性能揭晓

评论

相关推荐

技术专区