AI 颠覆者 DeepSeek 的下一代模型因 Nvidia GPU 对中国出口限制而延迟——AI GPU 短缺阻碍开发
(图片来源:英伟达)
DeepSeek 凭借其今年的 R1 AI 模型吸引了大量关注,但似乎下一代 R2 模型的开发因中国 Nvidia H20 处理器的短缺而停滞,据 信息报道 。DeepSeek 本身尚未评论其 R2 模型的发布时间。
DeepSeek 使用由其投资者 High-Flyer Capital Management 获得的包含 50,000 个 Hopper GPU 的集群——其中包括 30,000 个 H20、10,000 个 H800 和 10,000 个 H100——来训练其 R1 模型。尚不清楚 R2 是否已经完全预训练。 信息 报道称,DeepSeek 团队一直在 intensively 工作,但 CEO 梁文锋尚未对其能力感到满意。在模型获得部署批准之前,团队将继续内部工作以提升性能。
R1 已迅速且广泛地被各类用户采用,包括私营初创公司、大型企业和政府相关机构。这些用户大多在英伟达的 H20 处理器上运行该模型。现在 H20 的出货受到限制,这已经引发了问题,限制了 R1 当前的使用,并使 R2 的推出准备变得更加困难,据 The Information 报道。
如果 DeepSeek 即将推出的 R2 模型的性能超过了目前可用的开源替代方案,预计其使用量将激增,超出中国云平台的处理能力,据那些公司员工在被 The Information引用时表示。据说依赖早期 R1 模型的多数组织使用的是英伟达的 H20 处理器,而目前 H20 处于短缺状态。
美国政府在 4 月中旬限制了英伟达 H20 处理器用于 AI 训练和推理的销售。虽然该单元是流行 H100 GPU 的一个大幅简化版本,但由于中国 AI 公司对英伟达的 CUDA 软件堆栈的依赖,H20 在中华人民共和国境内非常受欢迎,英伟达每个季度都销售了数十亿美元价值的 H20 处理器。
据称,DeepSeek 的人工智能软件针对英伟达的硬件进行了优化,这使得该公司特别容易受到美国政策决策的影响。尽管该公司声称其模型的开发所使用的资源远少于 OpenAI 等美国公司,但最近的出口限制凸显了一个关键弱点:中国顶尖的人工智能公司仍然严重依赖美国硬件。与此同时,OpenAI 私下指责 DeepSeek 在 R1 的开发过程中使用了其专有模型,尽管该公司尚未公开回应这些指控。
评论