AI电力激增背后的液冷管道

作者：时间：2026-03-11 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

AI 工作负载的算力需求正在飞速飙升。本能的反应是什么？建造更多数据中心。但这种策略正变得越来越难以实施。除了建设大型数据中心的现实难题外，电网容量有限，就连接入电网都变得困难重重。再加上新设施带来的资金与环境成本，很明显，单纯靠扩张规模并非解决之道。

然而，更有效的策略是：通过针对性的基础设施升级，在现有占地面积内释放更多性能，扩大容量、提升效率并加快部署速度。

问题在于，每一代新产品中，GPU 和其他 AI 加速器都在推高功耗和散热量。这些飞跃正在让传统设计过时，并迫使基础设施策略发生根本性转变。例如 NVIDIA 的 GB200 超级芯片，每个模块集成两颗布莱克韦尔 GPU 和一颗格蕾丝 CPU，功耗最高可达约 2700 瓦，凸显出下一代 AI 系统的热负荷正在快速攀升。

只要采用正确的冷却、供电和机架级集成方案，数据中心运营商就能在不新建设施的前提下，大幅提高算力密度和性能。

理解数据中心算力密度面临的约束

总体而言，传统数据中心并非为大语言模型（LLM）和其他高密度 AI 工作负载而设计。在这类环境中进行扩容面临四大关键挑战：

空间限制：现有机架布局通常没有足够物理空间容纳现代高密度配置。
供电约束：传统配电单元（PDU）和开关设备从未设计用于为功率密度 60 至 120 千瓦甚至更高的机架供电。
冷却低效：即使风量开到最大，传统风冷系统也无法散出新一代 AI 处理器的热量。
可持续性压力：随着数据中心用电量在全球电力消耗中的占比不断上升，运营商面临来自监管机构、投资者和客户越来越大的压力，要求提高能源效率。

这些约束都会影响可靠性、正常运行时间和投资回报率。工程师和系统集成商正在寻找在不停机的情况下提升性能的方法，而在每瓦电力、每一寸空间都至关重要的情况下，这绝非易事。

芯片直连液冷为 AI 释放更大功率

散热是高性能计算最直接、最突出的约束。风冷系统已经达到实际极限。即使配备架空地板、密闭通道和优化气流，传统方案也无法跟上 AI 芯片的热特性。

芯片直连液冷已成为一种可行的解决方案。通过将冷却液直接引到芯片表面，并精准对准热点，这种方式大幅提升传热效率，稳定 CPU 和 GPU 温度，并最小化影响性能的温度梯度。

尽管在技术上具备优势，但液冷往往被误解为需要大规模基础设施改造。而事实并非总是如此。

独立式闭环液冷系统可以提供一种实用、渐进式的升级路径。这些方案可直接集成到标准服务器配置中，1U 规格可支持高达 1200 瓦，2U 规格可支持 1500 瓦甚至更高，且无需外部管路或配电单元。运营商通过大幅降低风量需求，平均可节省 15% 的电力，所有这些都在现有机架空间和功率预算内实现。

对于新建项目或大规模设施升级，机房级液冷值得认真考虑。这类系统可支持每路插槽超过 3000 瓦，机架功率密度接近 1 兆瓦。

虽然带管路的液冷需要更多基础设施，且可能占用更多机架物理空间，但它能让企业在相同的数据中心总占地面积内大幅提升算力密度。这意味着你可以在不扩建设施的情况下扩容 AI 工作负载。前期投资更高，但长期投资回报率十分可观：更高的算力密度、更低的能耗、更高的可靠性。

对于希望在不新建数据中心的前提下最大化性能的企业，围绕先进散热方案进行设计，能够带来巨大的效率提升，并为规模化 AI 打造面向未来的基础设施。

液冷并非非此即彼的选择。运营商可以从小规模起步，部署能够无缝融入现有环境的独立系统。通过在芯片层面提升热传输效率，这些方案释放出新的空间，能够在相同占地面积内实现更高功率密度、更好性能和更高效率。本质上，液冷让在不扩大空间和功率预算的前提下提升算力密度成为可能。

重新思考兆瓦级机架的配电与供电

仅靠散热创新无法解决下一代算力面临的挑战。随着机架功率密度飙升至 120 千瓦以上，并且超大规模运营商将 1 兆瓦机架架构纳入路线图，行业需要从根本上重新思考供电和配电方式。传统数据中心许多仍配备为 5 至 15 千瓦负载设计的 PDU 和开关设备，与 AI 优化型基础设施的需求越来越不匹配。

这种不匹配是一种供电隐患。升级供电架构已不再是可选方案，而是实现可扩展性、高效率和高韧性的前提。高效率 PDU、直流母线、模块化电源架和分离式供电机架平台，正在为 AI 工作负载实现更安全、更高效的供电。

超大规模运营商正引领向分离式基础设施转型，将供电、冷却和 IT 设备拆分为模块化、可独立扩容的组件。例如谷歌的 Mt. Diablo 项目，推出了交流转直流的侧挂式电源机架，提供 ±400 伏直流电，单机架支持最高 1 兆瓦功率，并回收 IT 机架内的宝贵空间用于算力部署。这种方案让运营商能够在不扩大物理占地面积的前提下提升密度。

这类创新正吸引更广泛的解决方案提供商生态系统参与。诸如 Flex 等公司不仅在被动响应，更是在构建未来。

在 2025 年 OCP 全球峰会上，Flex 推出了其 AI 基础设施平台 —— 一款面向吉瓦级数据中心的全集成解决方案。该平台采用 1 兆瓦机架，支持 ±400 伏直流供电，并可向 800 伏直流供电架构演进，支持最高 1.8 兆瓦的模块化散热，以及预制式系统，可大幅缩短部署时间。这是一种更智能的扩容模式，在不扩大占地面积的前提下最大化密度和速度。

智能电源管理：AI 格局中被忽视的一环

同样重要的是电力管理方式。闲置容量 —— 因分配不均而未被利用的能源 —— 仍然是影响运营效率的隐形消耗。软件定义和模块化电源系统支持动态分配，确保电力精准输送到需要的地方。这不仅提高利用率和可靠性，还降低过度配置和不必要资本支出的风险。

随着数据中心采用直流配电，固态变压器等技术旨在简化转换环节。它们有助于提高能源效率，并可大幅缩小配电室占地面积 —— 据 Flex 估计，到 2030 年可缩小高达 90%。这带来两大显著优势：以更小的占地面积实现相同容量，从而降低建设成本；或在相同空间内部署更多机架，从而提高算力密度。

对系统集成商而言，挑战在于无中断执行。停机是不可接受的。这就是行业正向热插拔、前置式设计转型的原因，这类设计简化了在线环境中的安装和维护。

机架级集成：冷却、供电与算力的交汇点

真正的密度提升，发生在冷却、供电和算力不再各自为政，而是在机架层面协同工作之时。有前瞻性的领导者正在采用将这些功能整合为统一生态系统的架构，而非将每个子系统独立看待。

通过这种方式，基于开放标准的一体化机架能够实现跨代硬件的互操作性，简化维护，而液冷设计则确保最佳散热性能。随着芯片热设计功耗（TDP）持续上升，这种模式支持长期可扩展性。

最有效的方案之一是部署交钥匙、垂直一体化的液冷机架解决方案，将供电、热管理和 IT 硬件整合为单一的预工程化系统。这些方案消除了复杂的多厂商集成需求，实现更快部署、简化运营和单一责任点。

合作伙伴关系同样重要。通过与提供完整机架级系统（包含匹配的冷却、供电和算力组件）的解决方案提供商合作，运营商可获得单一联系点和简化的保修服务。这降低了复杂性和风险，加快部署速度，让数据中心能够更快扩容，避免常见的集成难题。

对系统集成商而言，这些架构通过互操作性测试、性能验证以及为优化 AI 负载部署预集成机架解决方案，创造了提供价值的新机会。通过将先进液冷与高效率供电相结合，运营商能够在算力输出提升的同时降低设施总能耗，与风冷系统相比，机架级功耗可降低数千瓦。

这些效率提升直接转化为每平方英尺更高的算力密度。当冷却和供电系统高效运行时，机架能够在不超出设施限制的前提下支持更高功率和热负荷。这意味着每单位面积更多算力，最大化现有空间价值，在不扩大数据中心占地面积的前提下提供更高性能。

高压直流母线和钛金级电源进一步提高转换效率，减少废热和后续散热需求。

在相同空间内容纳全新基础设施

未来的数据中心不必更大，才能满足 AI 需求；它只需要更具战略性的设计。通过聚焦正确的基础设施升级，运营商能够在现有场地内解锁 AI 工作负载所需的密度和性能。

冷却和供电是最关键的起点。通过一体化、模块化、支持液冷的设计协同应对这些挑战的工程师和系统集成商，将能够让数据中心与每一代新算力硬件同步演进，从而真正支撑越来越耗电的 AI 解决方案。

通过重新思考基础设施，你可以在有限空间内获得更大价值。

新闻中心

AI电力激增背后的液冷管道

评论

相关推荐

技术专区