新闻中心

EEPW首页 > 智能计算 > 业界动态 > Nvidia的Blackwell AI GPU过热问题似乎被过度夸大——半导体分析师透露,冷却问题已大多得到解决

Nvidia的Blackwell AI GPU过热问题似乎被过度夸大——半导体分析师透露,冷却问题已大多得到解决

作者:EEPW 时间:2024-11-21 来源:EEPW 收藏

Nvidia的GB200 NVL72服务器机架过热问题似乎被夸大了。根据《商业内幕》的报道,Blackwell的冷却设计缺陷已经得到解决。Semianalysis的首席分析师Dylan Patel向《商业内幕》表示,Blackwell的设计问题已经存在几个月,但大多数问题已经得到解决,过热问题被夸大了。

本文引用地址:https://www.eepw.com.cn/article/202411/464808.htm

Semianalysis的五位半导体行业分析师表示,导致多个供应商进行“返工”的冷却系统问题是一个“小问题”。Blackwell的冷却问题尤其在Nvidia的大型72芯片服务器机架中出现,后者的功率需求可达到120kW。机架设计中的缺陷迫使Nvidia多次重新评估设计,因为机架内的GPU过热。这导致Nvidia的GB200硬件出货延迟,并因需要进行设计更改而进一步推迟。

Nvidia的B200 GPU是AI工作负载中最强大的处理芯片。例如,GB200超级芯片的可配置热设计功率(TDP)高达几千瓦,峰值功率可达2700瓦。这些极高的功率使得在标准机架形式中几乎不可能使用空气冷却。

这一物理问题迫使Nvidia在最新的Blackwell GPU上使用液体冷却。同时,它还要求数据中心重新改造服务器农场,以容纳支持液冷服务器所需的基础设施。

Nvidia可以通过制造较低功率的空气冷却GPU来解决这个问题——该公司仍然制造这种类型的GPU,例如H200 NVL。然而,为了在AI GPU竞赛中保持领先,Nvidia优先考虑性能,而不顾成本,这就是为什么该公司选择制造需要数千瓦功率的GPU,而牺牲空气冷却的原因。

好消息是,Nvidia的72芯片Blackwell冷却问题似乎较轻微,且已大致得到解决。此外,只有Nvidia的旗舰72芯片服务器机架存在这个问题。



关键词:

评论


相关推荐

技术专区

关闭