NVIDIA 800 V HVDC架构赋能新一代AI工厂发展
AI工作负载的指数级增长正在增加数据中心的功率需求。传统的54 V机架内配电专为千瓦(KW)-scale 机架设计,无法支持即将进入现代AI 工厂的兆瓦(MW)-scale机架。
从2027 年开始,NVIDIA 正在率先向800 V HVDC数据中心电力基础设施过渡,以支持1 MW 及以上的IT 机架。为了加速采用,NVIDIA 正在与数据中心电气生态系统中的主要行业合作伙伴合作,包括:
● 芯片提供商:Infi neon、MPS、Navitas、ROHM、STMicroelectronics、Texas Instruments
● 动力系统组件:Delta、Flex Power、Lead Wealth、LiteOn、Megmeet
● 数据中心电力系统:Eaton、Schneider Electric、Vertiv
该计划将推动创新,旨在为新一代AI 工作负载建立高效、可扩展的供电,以确保提高可靠性并降低基础设施复杂性。
1 传统机架电源系统的极限
如今,AI 工厂的机架依赖于54 V DC 电源,其中笨重的copper busbars 将电力从机架式电源架传输到计算托盘。当机架功率超过200 kilowatts 时,这种方法开始达到物理极限:
● 空间限制:如今的NVIDIA GB200 NVL72 或NVIDIA GB300 NVL72 配备多达八个电源架,为MGX计算和交换机架提供动力支持。使用相同的54 V DC 直流配电意味着,在MW 规模下,Kyber 的电源架将消耗高达64 U 的机架空间,没有任何计算空间。在GTC2025 大会上,NVIDIA 展示了一台800 V 的边车,可在单个Kyber 机架中为576 个Rubin Ultra GPU 提供动力支持。另一种方法是为每个计算机架使用专用电源机架。
● 铜缆过载:在单个1 MW 机架中使用54 V DC的物理特性需要多达200 千克的铜母线。单单1 GW 数据中心的机架式母线就需要多达50 万吨铜。显然,当前的配电技术在GW 数据中心的未来是不可持续的。
● 低效转换:整个电力链中重复的AC/DC 转换不节能,并会增加故障点。

图1 当前的Data Center电源架构
2 800 V HVDC革命
NVIDIA 800 V HVDC架构通过全面重新设计来应对这些挑战。NVIDIA 正在与数据中心能源生态系统合作,研究实现这一概念所需的创新和变革。

图2 NVIDIA 800 V HVDC架构可更大限度地减少能源转换
3 电网到电力机房
传统的数据中心配电涉及多次电压转换,这可能会导致效率低下并增加电气系统的复杂性。通过使用工业级整流器,在数据中心周边将13.8 kV AC 网电源直接转换为800 V HVDC,消除了大多数中间转换步骤。这种简化的方法可更大限度地减少能源损失,这些损失通常发生在多个AC/DC 和DC/DC 转换期间。
这种方法还显著减少了电源链中需要的带风扇的电源单元(PSU)的数量。更少的PSU 和风扇可提高系统可靠性、降低散热并提高能效,从而使HVDC 配电成为现代数据中心更有效的解决方案,并显著减少组件总数。
通过单步AC/DC 转换,该系统可受益于更直接、更高效的电源流,从而降低电气复杂性和维护需求。要全面提供可能的过流保护可靠性和维护收益,仍需要创新。HVDC还可降低传输损失并提供更好的电压稳定性,确保向关键基础设施持续供电,同时降低铜缆成本和总体材料成本。这种设计可以提高运营效率,同时简化数据中心电源架构。
4 行级电源管理
在配电中,使用800 V 总线通道并从415 V AC 切换到800 V DC,可通过相同的导体尺寸多传输85% 的功率。出现这种情况的原因是,较高的电压会降低电流需求,降低电阻损耗并提高功率传输效率。
“使用较低的电流,较薄的导体可以处理相同的负载,从而将铜缆需求降低45%。此外,DC 系统还可消除AC 特有的低效现象,例如蒙皮效应和无功功率损失,从而进一步提高效率。通过采用800 V DC 配电,设施可获得更高的功率容量、更高的能效和更低的材料成本。”
5 IT机架实施
“通过采用直接800 V 输入,计算机架可以高效地处理电源传输,而无需依赖集成的AC/DC 转换阶段。这些机架接受两条800 V 导体馈送,并利用计算机架中的DC/DC 转换来驱动GPU 设备。消除机架级AC/DC转换元件可腾出宝贵空间来处理更多计算资源,从而实现更高密度的配置并提高散热效率。与需要额外电源模块的传统AC/DC 转换相比,直接800 V 输入可简化设计,同时提高性能。”

IT机架的800V HVDC配电以及GPU的12V DC/DC转换
6 800V HVDC的主要优势
可扩展性:使用相同的数据中心电力基础设施,支持功率在100kW到1MW以上的机架,从而实现无缝扩展。
效率:与当前的54V系统相比,端到端效率提升高达5%,确保更高的能源利用率。
铜缆减少:与传统的415 V AC 或480 V DC 架构相比,800 V HVDC 可显著减少数据中心主干的电流、铜缆用量和热损耗。
可靠性:传统的IT 机架式PSU 依靠过度配置来减少机时间,但这会导致频繁的维护周期来更换出现故障的模块。虽然集中式电源转换可提高系统可靠性,但在HVDC 系统中,故障检测和可维护性是关键的创新领域。
IT 机架式PSU 的空间限制会造成散热挑战,导致在成本和长期可靠性之间做出权衡。将Power Conversion从机架中移出可降低这些风险。
面向未来:旨在满足1MW机架的要求,能够随着数据中心需求的发展高效扩展到更高功率的机架。
7 应对设施级HVDC的挑战
虽然高压直流架构在过去曾进行过试点,但由于技术和部署方面的挑战,其广泛采用受到了限制。如今,AI驱动的机架密度、电源转换的进步以及围绕电动汽车(EV)充电标准建立的工业基础的融合正在改变这一格局。
在设施层面部署800 V HVDC 给安全、标准和员工培训带来了新的挑战。NVIDIA 及其合作伙伴正在积极研究基于传统Transformer 的和固态Transformer(SST)方法的CapEx 和OpEx 以及安全影响,以实现这一过渡。
8 前进之路
800V HVDC不仅仅是当今的机架,而是面向未来的AI基础设施。2027 年,800 V HVDC 数据中心将与NVIDIA Kyber机架级系统同步全面投产,确保为要求日益严苛的AI 模型提供无缝可扩展性。
帮助数据中心基础设施处理负载峰值和次秒级GPU功率波动的能源存储解决方案是800 V HVDC 架构的一部分。敬请关注,了解更多详情。
由于AI 工作负载每次查询所需的计算量增加了100 倍到1000 倍,因此该架构可实现持续增长,同时通过提高效率、可靠性和系统架构改进将总体拥有成本(TCO)降低高达30%。
9 主要效率提升
● 端到端能效提升高达5%
● 由于PSU 故障减少,组件维护的人工成本降低,维护成本最多可降低70%
● 无需在IT 机架内配备AC/DC PSU,从而降低散热费用
NVIDIA 不仅在构建速度更快的GPU,还在重新设计整个功率堆栈,以充分发挥AI 的潜力。超高效、MW-scale AI 工厂的时代由此开始。
(本文来源于《EEPW》202601)


评论