新闻中心

EEPW首页 > 智能计算 > 设计应用 > AI电力激增背后的液冷管道

AI电力激增背后的液冷管道

作者: 时间:2026-03-11 来源: 收藏

AI 工作负载的算力需求正在飞速飙升。本能的反应是什么?建造更多。但这种策略正变得越来越难以实施。除了建设大型的现实难题外,电网容量有限,就连接入电网都变得困难重重。再加上新设施带来的资金与环境成本,很明显,单纯靠扩张规模并非解决之道。

然而,更有效的策略是:通过针对性的基础设施升级,在现有占地面积内释放更多性能,扩大容量、提升效率并加快部署速度。

问题在于,每一代新产品中,GPU 和其他 AI 加速器都在推高功耗和散热量。这些飞跃正在让传统设计过时,并迫使基础设施策略发生根本性转变。例如 NVIDIA 的 GB200 超级芯片,每个模块集成两颗布莱克韦尔 GPU 和一颗格蕾丝 CPU,功耗最高可达约 2700 瓦,凸显出下一代 AI 系统的热负荷正在快速攀升。

只要采用正确的冷却、供电和机架级集成方案,运营商就能在不新建设施的前提下,大幅提高算力密度和性能。

理解数据中心算力密度面临的约束

总体而言,传统数据中心并非为大语言模型(LLM)和其他高密度 AI 工作负载而设计。在这类环境中进行扩容面临四大关键挑战:

  • 空间限制:现有机架布局通常没有足够物理空间容纳现代高密度配置。

  • 供电约束:传统配电单元(PDU)和开关设备从未设计用于为功率密度 60 至 120 千瓦甚至更高的机架供电。

  • 冷却低效:即使风量开到最大,传统风冷系统也无法散出新一代 AI 处理器的热量。

  • 可持续性压力:随着数据中心用电量在全球电力消耗中的占比不断上升,运营商面临来自监管机构、投资者和客户越来越大的压力,要求提高能源效率。

这些约束都会影响可靠性、正常运行时间和投资回报率。工程师和系统集成商正在寻找在不停机的情况下提升性能的方法,而在每瓦电力、每一寸空间都至关重要的情况下,这绝非易事。

芯片直连为 AI 释放更大功率

散热是高性能计算最直接、最突出的约束。风冷系统已经达到实际极限。即使配备架空地板、密闭通道和优化气流,传统方案也无法跟上 AI 芯片的热特性。

芯片直连已成为一种可行的解决方案。通过将冷却液直接引到芯片表面,并精准对准热点,这种方式大幅提升传热效率,稳定 CPU 和 GPU 温度,并最小化影响性能的温度梯度。

尽管在技术上具备优势,但往往被误解为需要大规模基础设施改造。而事实并非总是如此。

独立式闭环液冷系统可以提供一种实用、渐进式的升级路径。这些方案可直接集成到标准服务器配置中,1U 规格可支持高达 1200 瓦,2U 规格可支持 1500 瓦甚至更高,且无需外部管路或配电单元。运营商通过大幅降低风量需求,平均可节省 15% 的电力,所有这些都在现有机架空间和功率预算内实现。

对于新建项目或大规模设施升级,机房级液冷值得认真考虑。这类系统可支持每路插槽超过 3000 瓦,机架功率密度接近 1 兆瓦。

虽然带管路的液冷需要更多基础设施,且可能占用更多机架物理空间,但它能让企业在相同的数据中心总占地面积内大幅提升算力密度。这意味着你可以在不扩建设施的情况下扩容 AI 工作负载。前期投资更高,但长期投资回报率十分可观:更高的算力密度、更低的能耗、更高的可靠性。

对于希望在不新建数据中心的前提下最大化性能的企业,围绕先进散热方案进行设计,能够带来巨大的效率提升,并为规模化 AI 打造面向未来的基础设施。

液冷并非非此即彼的选择。运营商可以从小规模起步,部署能够无缝融入现有环境的独立系统。通过在芯片层面提升热传输效率,这些方案释放出新的空间,能够在相同占地面积内实现更高功率密度、更好性能和更高效率。本质上,液冷让在不扩大空间和功率预算的前提下提升算力密度成为可能。

重新思考兆瓦级机架的配电与供电

仅靠散热创新无法解决下一代算力面临的挑战。随着机架功率密度飙升至 120 千瓦以上,并且超大规模运营商将 1 兆瓦机架架构纳入路线图,行业需要从根本上重新思考供电和配电方式。传统数据中心许多仍配备为 5 至 15 千瓦负载设计的 PDU 和开关设备,与 AI 优化型基础设施的需求越来越不匹配。

这种不匹配是一种供电隐患。升级已不再是可选方案,而是实现可扩展性、高效率和高韧性的前提。高效率 PDU、直流母线、模块化电源架和分离式供电机架平台,正在为 AI 工作负载实现更安全、更高效的供电。

超大规模运营商正引领向分离式基础设施转型,将供电、冷却和 IT 设备拆分为模块化、可独立扩容的组件。例如谷歌的 Mt. Diablo 项目,推出了交流转直流的侧挂式电源机架,提供 ±400 伏直流电,单机架支持最高 1 兆瓦功率,并回收 IT 机架内的宝贵空间用于算力部署。这种方案让运营商能够在不扩大物理占地面积的前提下提升密度。

这类创新正吸引更广泛的解决方案提供商生态系统参与。诸如 Flex 等公司不仅在被动响应,更是在构建未来。

在 2025 年 OCP 全球峰会上,Flex 推出了其 AI 基础设施平台 —— 一款面向吉瓦级数据中心的全集成解决方案。该平台采用 1 兆瓦机架,支持 ±400 伏直流供电,并可向 800 伏直流演进,支持最高 1.8 兆瓦的模块化散热,以及预制式系统,可大幅缩短部署时间。这是一种更智能的扩容模式,在不扩大占地面积的前提下最大化密度和速度。

智能电源管理:AI 格局中被忽视的一环

同样重要的是电力管理方式。闲置容量 —— 因分配不均而未被利用的能源 —— 仍然是影响运营效率的隐形消耗。软件定义和模块化电源系统支持动态分配,确保电力精准输送到需要的地方。这不仅提高利用率和可靠性,还降低过度配置和不必要资本支出的风险。

随着数据中心采用直流配电,固态变压器等技术旨在简化转换环节。它们有助于提高能源效率,并可大幅缩小配电室占地面积 —— 据 Flex 估计,到 2030 年可缩小高达 90%。这带来两大显著优势:以更小的占地面积实现相同容量,从而降低建设成本;或在相同空间内部署更多机架,从而提高算力密度。

对系统集成商而言,挑战在于无中断执行。停机是不可接受的。这就是行业正向热插拔、前置式设计转型的原因,这类设计简化了在线环境中的安装和维护。

机架级集成:冷却、供电与算力的交汇点

真正的密度提升,发生在冷却、供电和算力不再各自为政,而是在机架层面协同工作之时。有前瞻性的领导者正在采用将这些功能整合为统一生态系统的架构,而非将每个子系统独立看待。

通过这种方式,基于开放标准的一体化机架能够实现跨代硬件的互操作性,简化维护,而液冷设计则确保最佳散热性能。随着芯片热设计功耗(TDP)持续上升,这种模式支持长期可扩展性。

最有效的方案之一是部署交钥匙、垂直一体化的液冷机架解决方案,将供电、热管理和 IT 硬件整合为单一的预工程化系统。这些方案消除了复杂的多厂商集成需求,实现更快部署、简化运营和单一责任点。

合作伙伴关系同样重要。通过与提供完整机架级系统(包含匹配的冷却、供电和算力组件)的解决方案提供商合作,运营商可获得单一联系点和简化的保修服务。这降低了复杂性和风险,加快部署速度,让数据中心能够更快扩容,避免常见的集成难题。

对系统集成商而言,这些架构通过互操作性测试、性能验证以及为优化 AI 负载部署预集成机架解决方案,创造了提供价值的新机会。通过将先进液冷与高效率供电相结合,运营商能够在算力输出提升的同时降低设施总能耗,与风冷系统相比,机架级功耗可降低数千瓦。

这些效率提升直接转化为每平方英尺更高的算力密度。当冷却和供电系统高效运行时,机架能够在不超出设施限制的前提下支持更高功率和热负荷。这意味着每单位面积更多算力,最大化现有空间价值,在不扩大数据中心占地面积的前提下提供更高性能。

高压直流母线和钛金级电源进一步提高转换效率,减少废热和后续散热需求。

在相同空间内容纳全新基础设施

未来的数据中心不必更大,才能满足 AI 需求;它只需要更具战略性的设计。通过聚焦正确的基础设施升级,运营商能够在现有场地内解锁 AI 工作负载所需的密度和性能。

冷却和供电是最关键的起点。通过一体化、模块化、支持液冷的设计协同应对这些挑战的工程师和系统集成商,将能够让数据中心与每一代新算力硬件同步演进,从而真正支撑越来越耗电的 AI 解决方案。

通过重新思考基础设施,你可以在有限空间内获得更大价值。


评论


相关推荐

技术专区

关闭