新闻中心

EEPW首页 > 智能计算 > 市场分析 > AI算力芯片天下一分为四,中国实力渐显

AI算力芯片天下一分为四,中国实力渐显

作者:时间:2023-12-15来源:半导体产业纵横收藏

近年来「」逐渐成为学术界、产业界、公众的热词,网络、算力指数、算力经济、东数西算、东数西存等新名词不断涌现。

本文引用地址:http://www.eepw.com.cn/article/202312/453950.htm

那么到底什么是算力?「算力」又如何成为近几年的热词?

什么是算力?

算力是设备通过处理数据,实现特定结果输出的计算能力。现阶段算力主要可分为基础算力、智能算力和高性能计算算力三种类型。

基础算力主要由基于 CPU 芯片的服务器提供,面向基础通用计算。智能算力主要基于 GPU、FPGA、ASIC 等芯片的加速计算平台提供,面向人工智能计算。高性能计算算力主要基于融合 CPU 芯片和 GPU 芯片打造计算集群,主要面向科学工程计算等应用场景。

算力需求主要分为两部分,包括训练算力和推理算力。训练芯片用来训练,算力和精度要求高。推理芯片是在已经完成训练的模型上,根据输入数据反馈输出结果,算力和精度要求都低很多。

2023 年, 掀起的新一轮人工智能应用热潮,对智能算力的需求增长尤其显著。《 算力产业链全景梳理报告》显示,2023 年—2027 年,全球训练端峰值算力需求量的年复合增长率有望达到 78.0%。全球大模型云端推理的峰值算力需求量的年复合增长率有望高达 113%。

据悉,人工智能计算市场以通用性为主,GPU 占到 90% 的市场份额。训练算力相关设备主要是英伟达的 A100 和 H100;推理算力相关设备主要是英伟达 T4 卡。

算力的通用选择

A100 和 H100

A100 计算性能卓越,其强大的 GPU 架构和多个 Tensor Core 单元支持大规模深度学习任务所需的高性能计算,尤其在处理复杂矩阵运算方面表现出色。其次,A100 提供高达 80 GB 的显存容量,能够满足大型神经网络所需的大内存空间,而且通过 NVLink 技术,多个 A100 GPU 可以共享大内存,支持更大规模的模型训练。

此外,A100 支持高速的 PCIe Gen4 接口和 NVLink 技术,并集成了英伟达的 Tensor Core 技术,可以加速矩阵乘法和累积运算,实现了快速的数据传输和模型训练。A100 还得到了主流深度学习框架的广泛支持和优化,开发者可以充分发挥其性能优势,进行大模型的训练和推断,而无须担心兼容性问题。

综合来看,A100 GPU 提供了卓越的计算性能、大内存容量、高速的数据传输和深度学习加速技术,使其成为大模型训练的理想选择。

H100 是英伟达的第 9 代数据中心 GPU,旨在为大规模 和 HPC 实现相比于上一代英伟达 A100 Tensor Core GPU 数量级的性能飞跃。据悉,综合 H100 中所有新的计算技术进步的因素,H100 的计算性能比 A100 提高了约 6 倍,进一步,可提升 AI 和 HPC 工作负载的强大扩展能力,显著提升架构效率。

T4

英伟达 T4 是一款适用于数据中心和云计算的 GPU 加速器。它采用了 Turing 架构,拥有 16GB GDDR6 显存和 320 个 Tensor Cores。T4 主要针对深度学习推理任务进行了优化,支持多种精度计算,包括 INT4、INT8、FP16 和 FP32。由于其高效的性能和低功耗特性,T4 非常适合用于图像识别、语音识别、自然语言处理等深度学习应用。对于那些需要快速进行大规模图像处理和深度学习推理的场景,T4 是一种理想的选择。

从如今的情况来看,GPU 已成为当前 AI 算力的核心硬件,英伟达也成为各大模型厂商的通用解。近日英伟达再度迭代 AI 芯片产品,不断强化自己在行业内的「统治力」。

11 月 13 日,英伟达宣布在 AI 芯片 H100 的基础上,发布新一代 H200 芯片。基于 Meta 的 Llama 2 大模型的测试表明,H200 的输出速度大约是 H100 的两倍。H200 在推理速度上也几乎达到了 H100 的两倍,带宽增加了 2.4 倍。

相比上一代 A100 和 H100,H200 主要变化在于内存,成为首款采用 HBM3e(高频宽存储器)的 GPU,使得带宽从 H100 的每秒 3.35TB 提高至 4.8TB,提高 1.4 倍,存储器总容量从 H100 的 80GB 提高至 141GB,容量提高 1.8 倍,同时推理能耗大幅降低。

布局大模型,算力不够用

在席卷全球的 AI 热潮中,一个不容忽视的潜在阻力是算力的不足。根据今年 8 月 GPU Utils 更新的关于英伟达 H100 显卡供需现状的分析文章显示,保守估计,H100 的供给缺口达到 43 万张。

具体到各家的需求数据,GPUUtils 写道:OpenAI 可能需要 5 万张,Inflection 要 2.2 万张,Meta 需要 2.5 万张;大型云厂商例如 Azure、Google Cloud、AWS、Oracle 等每家可能需要 3 万张;Lambda 和 CoreWeave 以及其他私有云可能总共需要 10 万张;Anthropic、Helsing、Mistral、Character,每家可能要 1 万张;到这里,需求量就已经达到了约 43.2 万张 H100,以每块约 3.5 万美元计算,GPU 的价值约为 150 亿美元。

而这,还不包括像字节、百度、腾讯这样需要大量 H800 的中国公司,以及一些需求正盛的金融公司:如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨头,正从数百台 A100 或 H100 开始部署,逐步增加至数千张 A100/H100。

如今大模型之战愈演愈烈,大模型公司想更快推出模型和 AI 应用,就必须大量购入英伟达的芯片。可是英伟达也没有办法在短期内释放出这么多的 A100/H100,因为英伟达 A100/H100 GPU 完全由台积电代工生产,并使用台积电先进 CoWoS 封装技术。要知道台积电先进 CoWoS 封装产能是有限的。市场在爆发式增长,倘若英伟达按照上一年计划制定的供给,则远不能满足蓬勃的市场需求,因此抢不到芯片的云厂商、互联网巨头不得不高价抢购。

如此一来。大模型公司尚未赚到钱,英伟达倒是赚得盆满钵满。英伟达对高算力芯片的垄断,也成为硅谷众多大厂的心病。它们一方面离不开英伟达,另一方面又不想永远被英伟达掣肘。因此不少大模型公司都在想办法摆脱英伟达的垄断,有自研能力的纷纷自研,没有自研能力的创造条件。

自研芯片的三大云厂商

微软:Maia 100

11 月 15 日,微软在西雅图召开的 Ignite 大会上发布了两款芯片,一款面向 AI,一款面向云计算。微软发布的这款名为 Maia 100 的人工智能芯片,旨在与英伟达备受追捧的 AI 图形处理单元展开竞争。第二款则是 Cobalt 100 Arm 芯片,面向通用计算任务并将与英特尔处理器争夺市场。

根据微软 CEO 纳德拉的介绍,Maia 100 是一款 AI 加速芯片,基于 ARM 架构设计,主要用于云端训练、推理以及 Azure 的高负载云端运算。不过纳德拉否认了将向云计算客户供货的传闻,这款自研芯片将优先满足微软自身的需求,并在合适的时机向合作伙伴和客户开放。

Azure 芯片部门负责人、微软副总裁拉尼·博卡尔则补充道,Maia 100 已经在 Bing 和 office 的人工智能套件上测试。合作伙伴 openAI 也开始使用这款芯片进行测试部分产品和功能,比如 GPT 3.5 Turbo。至于测试的效果如何,微软暂时还没有给出具体报告。但纳德拉和博卡尔强调 Maia 100 可以加快数据处理速度,尤其是在语音和图像识别方面。

提速的关键,自然是算力。为了提升算力,微软也是下了血本:采用台积电的 5nm 制程工艺,晶体管数量达到 1050 亿个。不过横向对比的话,Maia 100 和英伟达、AMD 等大厂的产品在参数上还有很大差距。

作为全球头部云供应商之一,微软是最后一家为云和人工智能提供定制芯片的公司。

谷歌:TPU v5e

2016 年,谷歌就公布了其初代 AI 张量处理单元(TPU),随后在 2017 年作为 Google Cloud 基础设施「Cloud TPU」推出,通常使用 FP32 和 FP16 等精度数据,如果降低 ML 的精度/DL 计算到 8 位(INT8)等,则将使得在 ML/DL 中的处理能力得到进一步提高。此外,通过仅合并专门用于 ML/DL 的算术单元,谷歌减少了 CPU 和 GPU 所需的高速缓存、分支预测和乱序执行等复杂算术单元,可以以低功耗执行专门针对 ML/DL 的计算。

之后,谷歌 TPU 又经过了数次迭代,比如第二代 TPU v2 于 2017 年发布,第三代 TPU v3 于 2018 年发布,第四代 TPU v4 于去年发布,目前已开始服务和提供。

在今年 8 月的 Cloud Next 2023 大会上,谷歌公开了 Google Cloud 新款自研 AI 芯片 Cloud TPU v5e。TPU v5e 是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计。TPU v5e Pods 能够平衡性能、灵活性和效率,允许多达 256 个芯片互连,聚合带宽超过 400 Tb/s 和 100 petaOps 的 INT8 性能,使对应的平台能够灵活支持一系列推理和训练要求。

从技术层面上来看,与英伟达 A100/H100 等通用型 GPU 相比,谷歌 TPU 设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。英伟达的 A100 和 H100,它们属于广义上的通用型 GPU,而不仅仅局限于深度学习和人工智能领域。这些 GPU 具有通用计算能力,适用于多种计算工作负载,包括但不限于:高性能计算、深度学习以及大规模数据分析。

与英伟达通用型 GPU 相比,谷歌 TPU 采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,尤其对于中型 LLM 设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达 A100/H100。同时,TPU 使用了脉动阵列等设计来优化矩阵乘法与卷积运算。谷歌 TPU 追求专注于 AI 训练和推理,因此精简化部分设计架构,这也是 TPU 功耗、内存带宽和 FLOPS 都明显低于英伟达 H100 的部分原因。

11 月 8 日, 谷歌公布扩大同 AI 安全和研究初创公司 Anthropic 的合作伙伴关系,Anthropi 将运用谷歌新一代的 Cloud TPU v5e 芯片进行 AI 推理。谷歌介绍,Anthropic 现在是首批大规模部署 Cloud TPU v5e 的企业之一。Cloud TPU v5e 是谷歌云迄今为止最多功能、效率最高且可扩展性最强的 AI 加速器。这种芯片让 Anthropic 能以高性能且高效的方式为其 Claude 大语言模型(LLM)服务。

亚马逊:训练芯片 Trainium、推理芯片 Inferentia

在亚马逊、微软和谷歌这三家中,亚马逊是唯一一家在服务器中提供训练和推理两种类型芯片的云提供商。

亚马逊云科技目前有三条自研芯片生产线,分别是通用芯片 Graviton、专用 AI 芯片 Trainium(训练) 和 Inferentia(推理)以及 Nitro。

Graviton 是一款基于 ARM 架构的通用处理器,目前已经演进到第三代,即 Graviton3,相比 Graviton2,计算性能提高多达 25%,浮点性能提高多达 2 倍,加密工作负载性能最多加快 2 倍。而去年新推出的 Graviton 3E 特别提升了向量计算的性能,这项性能指标对于高性能计算 HPC 来说非常重要。

Trainium 和 Inferentia 是两款机器学习专用芯片。前者面向训练场景,后者面向推理场景。基于 Trainium 的 Trn1 实例和通用的 GPU 实例对比,单节点的吞吐率可以提升 1.2 倍,多节点集群的吞吐率可以提升 1.5 倍,从成本考虑,单节点成本可以降低 1.8 倍,集群的成本更是降低了 2.3 倍。而推理芯片 Inferentia 目前推出了第二代,可大规模部署复杂的模型,例如大型语言模型 (LLM) 和 Diffusion 类模型,同时成本更低。以 Stable Diffusion 2.1 的版本为例,基于第二代 Inferentia 的 Inf2 实例可实现 50% 的成本节约。

Nitro 是亚马逊云科技的第一款自研芯片产品,去年推出的第五代 Nitro 将每瓦性能提高了 40%。Nitro 提升了亚马逊云科技在基础架构上的灵活性,大大加快了各种计算实例的推出速度,目前亚马逊云科技的实例类型已经超过 600 种。另外,Nitro 还是目前商业化最为成功的 DPU 芯片。

两大模型语言开发商:OpenAI VS Anthropic 的算力来源

OpenAI 一直都依赖于英伟达的最新型号芯片来训练其模型。在 H100/A100 紧缺的当下,OpenAI 也陷入焦虑期,一方面紧急囤货,一方面寻求新的路径。

据悉,生成式人工智能领导者 OpenAI 正在探索自研 AI 芯片,甚至已经评估了潜在的收购目标。知情人士表示,随着训练人工智能模型的芯片短缺情况恶化,OpenAI 内部关于人工智能芯片战略的讨论至少从去年就开始了。OpenAI 正在考虑采取多种策略来推进其芯片的「自给自足」计划,包括与更多芯片制造商合作以提高供应商的多元化、收购 AI 芯片制造商、加大内部设计芯片的力度等等。

报道还提到,OpenAI 的首席执行官 Sam Altman 已将购买更多人工智能芯片作为公司的首要任务。目前,OpenAI 与大多数竞争对手一样,依靠基于 GPU 的硬件来开发 ChatGPT、GPT-4 和 DALL-E 3 等模型。GPU 并行执行多项计算的能力使其非常适合训练当今最强大的人工智能。

值得注意的是,微软是 OpenAI 背后强大的金主之一,拥有 OpenAI 49% 的股份,总投资额约 130 亿美元。

OpenAI 的竞争对手 Anthropic 也有两大支撑者,分别是亚马逊和谷歌。

亚马逊曾在一份文件中表示,它已经以可转换票据的形式向 Anthropic 投资了 12.5 亿美元,并有能力以第二笔票据的形式再投资 27.5 亿美元,这一选择权将于明年第一季度到期。亚马逊还与 Anthropic 达成协议,后者将使用 AWS 的云服务和自研芯片。

谷歌方面,除了提供新一代 TPU,该科技巨头此前已承诺向这家初创公司投资 20 亿美元,据悉,在最新一轮融资中,Alphabet 旗下谷歌向 Anthropic 投资约 5 亿美元,并承诺未来再投资约 15 亿美元,这笔投资是在今年早些时候谷歌向 Anthropic 投入 5.5 亿美元的基础上所进行。

投资初创公司获得算力

无论是微软、Meta、亚马逊这样的巨头,还是 OpenAI、Anthropic 这样的超级独角兽他们都不希望自己的 AI 算力与单一公司绑定。

d-Matrix

Sid Sheth 和 Sudeep Bhoja 就瞄准 AIGC 时代的 AI 推理算力需求,于 2019 年创立了 d-Matrix。今年 9 月,位于美国硅谷的 AI 芯片初创公司 d-Matrix 获得 1.1 亿美元的 B 轮融资,由新加坡顶尖投资公司淡马锡(Temasek)领投,加州风投公司 Playground Global、微软和三星等 14 家投资者跟投。

d-Matrix 致力于构建一种使用存内计算(In-Memory Computing,IMC)技术和芯片级横向扩展互连进行数据中心 AI 推理的新方法。据称,该处理器将提供比 CPU 和 GPU 更快的 AI 推理性能,适用于大型 Transformer 模型。d-Matrix 认为,在 AI 领域虽然存在英伟达这样难以撼动的龙头企业,但自己与英伟达不同,部分原因在于其技术针对的是 AI 处理过程中的「推理」(Inference)环节,而不是通过制造训练大型 AI 模型的技术来与英伟达竞争。基于 Transformer 的模型通常在高性能 GPU 上进行训练,但执行推理是一个能效问题,而不仅仅是性能问题。d-Matrix 提出了一种创新解决方案,声称可以将硬件的效率提高 10-30 倍。

Rain Neuromorphics Atomic Semi Cerebras

Rain Neuromorphics Atomic Semi Cerebras 由台积电前工程副总 Keith McKay 在 2018 年创立,总部位于美国加利福尼亚州,曾以推出超大芯片而引发关注。其 AI 超算处理器 Cerebras WSE 比 iPad 还要大。二代拥有 2.6 万亿个晶体管和 85 万个 AI 优化内核。它们还发布过一种 brain-scale 技术,可以运行超过 120 万亿个连接的神经网络。今年 Cerebras 还一口气开源了 7 个 GPT 模型,参数量分别达到 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿,同时 Cerebras 也提供大模型训练推理等云服务。目前为止,该公司已融资 7.2 亿美元。据悉,OpenAI 已参投了至少三家芯片公司,Rain Neuromorphics 就在列,其余两家是 Cerebras 和 Atomic Semi。

除此之外,2022 年成立并致力于开发用于文本应用的大语言模型(LLM)专用芯片的公司 MatX、成立于 2022 年并旨在使人工智能计算更具可访问性和可负担性的公司 Tiny Corp 都在努力成为 AI 算力芯片中具有分量的挑战选手。

能否选择 AMD?

今年 6 月,AI 算力市场的二号玩家、芯片厂商 AMD 推出全新人工智能 GPUMI300 系列芯片,与英伟达在人工智能算力市场展开竞争。据 AMD 首席执行官苏姿丰介绍称,MI300X 提供的高带宽内存(HBM)密度是英伟达 H100 的 2.4 倍,HBM 带宽是竞品的 1.6 倍。

有分析指出,从性能上 MI300 性能显著超越 H100,在部分精度上的性能优势高达 30% 甚至更多。凭借 CPU+GPU 的能力,MI300 产品组合性能更高、同时具有成本优势。不过从软件生态方面来看,现有的 AMD MI300 还不足以威胁英伟达的市场份额,想撼动英伟达在人工智能行业的地位,AMD 还需时间。

据悉,微软、Meta、甲骨文、谷歌、Supermicro/Quantadirect、亚马逊等公司已经向 AMD 下了大约 205,000 台 MI300 的订单。在这之中,有 120,000 台专门供应给微软,25,000 台给 Meta,12,000 台给甲骨文,8,000 台给谷歌,5,000 台给亚马逊公司,35,000 台给其他公司。

天风国际分析师郭明錤在社交平台上表示,AMD 的 AI 芯片出货量预计在 2024 年、2025 年快速增长。到 2024 年,AMD 的 AI 芯片出货量(主要是 MI300A)预计将达到英伟达出货量的约 10%,微软有望成为 AMD AI 芯片的最大客户,紧随其后的是亚马逊。如果微软与 AMD 的合作进展顺利,AMD 获得 Meta 和谷歌的订单,预计 2025 年 AMD 的 AI 芯片出货量将达到英伟达(基于 CoWoS 封装技术)的 30% 或更多。

这里仍需注意的是,要考虑到内存制造商的 HBM 产量、台积电的 CoWoS 产量、封装产量等影响因素。

讨论完国外的情况,再看看国内的算力芯片公司都有哪些机会。

中国本土的 AI 芯片如何了?

近几个月来,在美国对中国半导体的进一步打压下,中国市场的 AI 算力进一步吃紧,寻求算力的国产化机遇再次崛起。

中国算力供应链主要参与者有华为、寒武纪以及诸多其他算力芯片公司,比如燧原科技、沐曦、壁仞科技、天数智芯等。

基于目前中国 AI 大模型算力布局,无论是训练还是推理,AI 大模型算力主要分为三派:

一是华为鲲鹏和昇腾 AI 生态的算力方案,没有英伟达 GPU 参与;二是混合型算力支持,大量采用英伟达 A100 芯片,部分环境增加 AMD、英特尔芯片,以及天数智芯、寒武纪、海光等国产芯片及加速卡融合跑大模型训练;三是租用性价比更高的服务器云算力,补充算力不足情况。

下面看一下国产算力公司的具体实力。

在国内算力中,华为昇腾是最有实力的一家。在 AI 算力芯片方面,昇腾系列 AI 处理器,是基于华为自主研发的达芬奇架构设计的 AI 芯片。目前主要包括了昇腾 910(用于训练)和昇腾 310(用于推理)两款处理器,采用自家的达芬奇架构。

昇腾 910 的整数精度(INT8)算力可达 640TOPS,在业内其算力处于领先水平,性能水平接近于英伟达 A100。主要应用于云端,可以为深度学习的训练算法提供强大算力。功耗只有 310W,同时采用了 7nm 先进工艺进程,支持 128 通道全高清视频解码。

据悉目前多家 A 股上市公司已经提前采用本土的算力芯片进行 AI 推理与训练的应对,华为昇腾 910B 成为多家上市公司的首选。

早在 10 月 24 日,科大讯飞联合华为发布基于昇腾生态的大模型底座——飞星一号。科大讯飞董事长刘庆峰介绍,「飞星一号」是讯飞跟华为共同搭建的、完全国产的算力底座,可以让大模型训练和推理效率翻番,科大讯飞将在该平台的基础上训练对标 GPT-4 的大模型。华为轮值董事长徐直军表示,「飞星一号」平台,让星火的训练和推理效率均翻番。

刘庆峰表示,讯飞星火大模型 3.0 是首个真正在国产算力平台上训练出的大模型,华为最新的芯片都率先给讯飞使用。科大讯飞相关负责人在此前的机构调研中表示,华为昇腾 910B 的能力基本可对标英伟达 A100。

寒武纪也是一家非常重要的本土算力供应商。

思元 370 是寒武纪第三代云端产品,采用 7nm 制程工艺,是寒武纪首款采用 Chiplet 技术的 AI 芯片,最大算力高达 256TOPS(INT8)。寒武纪新一代云端智能训练新品思元 590 芯片还没发布,但已经受到很多关注和讨论,特别是寄予在大模型训练和推理任务中一定程度上替代 A100 的厚望。

据悉寒武纪主要是 ASIC 架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比 GPU 更高;有测试结果显示,590 性能接近 A100 90% 的性能;590 基本支持主流的模型,综合性能接近 A100 80% 的水平。

寒武纪此前中标了浙江台州智能计算集群项目(合同金额 5.28 亿元)和沈阳汽车城智能计算中心项目(合同金额 1.55 亿元)。根据券商研报显示,这两笔订单有望集中在四季度集中交付。

此外,还有诸多云厂商、算力租赁厂商,他们购买芯片搭建算力中心,用来提供云服务或者对外出租,提供给诸多不愿意自建算力中心的客户使用。

百度昆仑芯片是百度自主研发的云端 AI 通用芯片。长久以来,百度在文心一言大模型的推理端使用的都是自家研发的昆仑芯 2 代,但在训练端,他们却主要依赖英伟达的 V100 和 A100。

壁仞科技去年发布了一款规格极高的产品,但主要还是停留在纸面数据,并且在软件层面也还有很多工作要做,距离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走。天数智芯、沐曦也都陆续有产品推出,这几家公司虽不像第一梯队的企业有更成熟的产品经验,但他们的产品也广受市场期待。

燧原已拥有邃思系列芯片、云燧训练和推理加速卡以及云燧智算机的全系列算力产品线。目前燧原已经为大型科研机构部署了千卡规模的 AI 训练算力集群,并成功落地;燧原还与腾讯合作,在 OCR 文字识别,智能交互,智能会议等方面发挥作用,性能达到了业界同类产品两倍以上,性价比上具有很高优势。

中国科技巨头开始寻求其他解法

在高端 AI 芯片可能被禁的大趋势下,中国几大公有云厂商都做出了加强囤积英伟达高端 GPU 的动作。这一方面是因为云厂商自身要加大大模型投入,打开 MaaS 市场,所以对 AI 算力有直接需求。另一方面也是因为 GPU 转化为云资源池之后可以长期复用,对于云厂商来说是一个进可攻,退可守的局面。因此,今年上半年一度出现了市面上高端 AI 芯片全都流向云厂商,中小企业一卡难求的局面。

据悉,今年 8 月前后百度、腾讯、阿里巴巴和字节跳动四家公司合计向英伟达订购了价值 50 亿美元的 AI 芯片。这些芯片包括英伟达 2023 年发货的 10 万块 A800 芯片,价值 10 亿美元,另外价值 40 亿美元的芯片将在 2024 年交付。按照 10 亿美元购入 10 万张 A800 芯片来计算,每张 A800 芯片的价格达到 1 万美元。

华为云 CEO 张平安在华为云盘古大模型 3.0 发布会上曾表示,「中国的算力很难跟上不断增长的 AI 需求,而且 AI 算力缺乏稳定性。许多公司花高价购买英伟达 GPU,但训练中 GPU 会出现故障不得不重新训练,交货时间很长、代价大。我们希望在 AI 算力方面提供一种替代方案。」

不只是华为,多家公司都在不断筹谋和尝试其他解法。比如腾讯投资了燧原,百度开始寻求其他最优解。

不过,虽然国产 AI 算力已经实现了一定程度的市场占比,不仅仅是概念与理论中的「纸上谈兵」。但是也应该看到,国产 AI 芯片在核心性能、软件生态以及出货能力上依旧不理想,还有很长的路要走。

AI 算力开始涨价,英伟达却「陷入焦虑」

近段时间,算力行业接连传出涨价消息。11 月 1 日,中贝通信相关负责人在接受机构调研时表示,受服务器供应紧张影响,近期算力服务器价格涨幅较大,公司对客户提供算力租赁服务的价格也会上涨,涨价幅度在与客户协商中。

随后在 11 月 16 日,中贝通信披露的关于签订算力服务框架合同的公告显示,近日,公司与北京中科新远科技有限公司签订了算力服务技术服务框架协议,公司向对方提供共计 1920PAI 算力技术服务,合同总金额为 3.456 亿元,单价为 18 万元/P/年。值得注意的是,中贝通信 9 月 7 日披露的一则算力服务合同显示,该合同单价为 12 万元/P/年。与之相比,11 月这单合同中的算力服务涨价幅度达 50%。

11 月 14 日,汇纳科技发布了关于拟对部分算力服务业务收费价格上调的公告。公告显示,当日,公司接到合作方四川并济科技有限公司通知,由于内嵌英伟达 A100 芯片的高性能算力服务器算力需求大幅增加,相关高性能运算设备持续涨价,算力资源持续紧张,并济科技决定对其 A100 算力服务收费拟上调 100%。鉴于此,自即日起,汇纳科技拟将所受托运营的内嵌英伟达 A100 芯片的高性能算力服务器算力服务收费同步上调 100%。

还有不少 A 股公司通过投资者互动平台披露了近期涨价的意愿。包括云服务商青云科技、润建股份等都表示将根据市场供需情况对价格进行调整。

一些企业也预见到算力涨价周期的来临,并已提前做好准备。11 月 4 日,弘信电子在投资者互动平台上表示,现阶段,全球及国内算力需求越来越爆发、英伟达算力芯片已出现大幅涨价,国产算力资源也呈现越来越紧俏的态势。公司已与燧原科技达成 9152 片算力芯片的采购协议,快速锁定了算力芯片的量和价格,未来对外供货算力产品时,在目前可预见的市场供求关系下,无论搭载英伟达芯片的服务器还是搭载国产芯片的服务器,价格上涨的趋势都比较明确。

AI 应用繁荣发展带来的算力需求持续上升及算力供应的日益紧张。作为「芯片基石」供应商的英伟达在这场狂风骤雨中出尽了风头,然而如今,英伟达却对自己的未来表示担忧。

随着英伟达公司 2024 财年第三季度业绩的公布,该公司再次证明自己在关键的高增长技术领域中是一个主导力量。不过,英伟达现在正面临越来越多的竞争威胁,这也是事实。

如今的 AI 算力芯片市场一分为四,分别为耀眼的英伟达、正在崛起的中国算力芯片公司、寻求自研的科技/云服务器大厂以及众多雄心勃勃的初创公司。一系列的主要参与者可能侵蚀英伟达在关键产品类别中的领导地位,使得其在长期内保持市场份额的能力存在不确定性。

英伟达表示,预计在美国扩大对华芯片出口限制后,公司第四季度在中国的销售额将大幅下降。英伟达首席财务官科莱特·克雷斯在与分析师的电话会议上表示:「政府的出口管制将对我们的中国业务产生负面影响,但是我们还无法清楚地预测这种影响的严重程度。」克雷斯坦言,受政策影响,公司今年第四季度对中国和其他受影响的地区的销售额将大幅下降。

今年早些时候,克雷斯就表示,从长远来看,禁止向中国销售人工智能芯片将导致美国芯片行业永久失去机会。



关键词: 算力 大模型 AI

评论


相关推荐

技术专区

关闭