让 AI “少渴一点”：揭示并应对模型的隐性用水足迹

作者：时间：2025-11-10 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要

我们揭示了 AI 的用水足迹（water footprint）这一长期被忽视的环境维度，并给出一套可复现的定量估算方法。以 GPT‑3 为例，我们显示：大型模型训练可能消耗百万升量级的水。进一步地，数据中心就地（scope‑1）与电网链路（scope‑2）的水效率具有显著的时空差异，因此**“何时、何地”运行 AI会极大影响其用水足迹。我们建议提升透明度并在可持续报告中系统纳入 scope‑2 水耗**，同时以整体方法共同优化碳足迹与水足迹，推动真正可持续的 AI。

1. 引言：AI 的“隐性用水账”

随着大模型在云端训练与推理的繁荣，业界主要关注能耗与碳排；然而，水资源影响同样深刻。水足迹不仅来自数据中心冷却系统的现场取水与消耗（scope‑1），还来自为 IT 负载供电的电力系统上游（scope‑2），以及硬件制造（scope‑3）的“嵌入式用水”。过去由于数据缺失与核算口径不一，AI 的水足迹长期“雷达下飞行”。本文旨在正本清源：提出方法、给出量化，并讨论工程层面的缓解与政策建议。

2. 定义与核算：范围、口径与公式

为避免概念混淆，先厘清术语：

取水（withdrawal）：从水体中取走的水量；
消耗（consumption）：取走后不返回原水体的部分（例如蒸发损失，或排入不同水体）；
PUE（电源使用效率）：衡量数据中心非 IT 能耗开销；
WUE（水使用效率）：单位能耗或单位 IT 负载对应的取水/消耗强度（可分现场与链路两类）。

AI 的水足迹通常拆分为三部分：

2.1 运营水足迹（Operational / Scope‑1 + Scope‑2）

采用时间分槽模型，记时隙 (t=1,2,dots,T)。在时刻 (t)，某 AI 负载的IT 能量消耗为 (e_t)，其所在数据中心的 PUE 为 (theta_t)。令 (rho_{s1,t}) 为现场（scope‑1）水强度，(rho_{s2,t}) 为链路（scope‑2）水强度（均可按“取水”或“消耗”分别定义）。则在区间 ([1,T]) 的总运营水足迹可写为：

[
text{Water}{text{Operational}}
= sum{t=1}^{T} e_t,big[,rho_{s1,t} + theta_t,rho_{s2,t},big].
]

该式将IT 负载能量与非 IT 开销（通过 PUE）、两类水强度耦合，从而给出可逐时评估的运营水耗。需要注意：(rho_{s1,t}) 与外界气象条件（温度、湿度）相关，(rho_{s2,t}) 与电网燃料结构（如火电、核电、可再生）及其时变调度相关，二者都具有显著时空多样性。

2.2 链路水足迹（Scope‑2）与时空差异

不同地区与不同时段的电网燃料组合不同，导致为同样的 IT 负载“供电”而间接造成的链路用水差异巨大。峰热时段和干旱地区往往具有更高的 WUE；反之亦然。这意味着：把负载迁往/调度到“水效率更高”的地点/时段，可以在不改变模型结构的前提下显著降低用水。

2.3 嵌入式水足迹（Scope‑3）

与“嵌入式碳”（制造期温室气体）相似，服务器与芯片制造会产生嵌入式用水。若制造期总用水为 (W)，设备预计服役 (T_0)，则在评估窗口 (T) 的摊销量可写成相应的时间加权项（随设备数量/利用率变化）。当前公开数据仍然稀缺，缺口主要在芯片制造环节，需要行业与学术界进一步披露与建模。

小结：运营水足迹关注“用电 + 冷却”；链路水足迹随电网燃料结构与时段变化；嵌入式水足迹需跨供应链核算。三者合并才能得到 AI 的“真实用水成本”。

3. 案例：大型模型训练的“百万升”量级

以 GPT‑3 等大型训练为例，按上式逐时累积并结合实际数据中心的 PUE 与地区/时段的 WUE，估算显示：单次大规模训练可达到百万升量级的取水/消耗。这还未计入范围三（制造）端的不完全统计。值得注意的是：

链路占比不容忽视：正如碳足迹需要考虑 scope‑2，水足迹同样需要把发电侧的用水计入。部分公司（如 Meta）已在可持续报告中开始纳入 scope‑2 水耗。
美国 2028 年的预测表明，若数据中心用电持续增长，仅美国范围内与 AI 相关的取水与消耗就可能超过此前给出的全球估算。由此可见该议题的紧迫性。

4. “何时/何地”与“跟随/背离太阳”：碳–水的调度冲突

为了降低碳足迹，数据中心负载常被建议“跟随太阳（follow the sun）”，即在光伏更充足的时段/地域运行；而为了降低水足迹，我们却可能需要“背离太阳（unfollow the sun）”，避开高温高 WUE的日间时段（例如夜间更优）。

图2（a）（b）显示了一个关键事实：水强度与碳强度在时间/空间上并不总是对齐，最小化其一可能会增大另一个。因此，“水‑碳协同”的整体策略才是正解：在站点选择、能源采购、冷却方式与负载调度上联动优化，在满足服务目标的同时统筹两条曲线。

5. 工程应对：从基础设施到调度与披露

5.1 数据中心侧：冷却与水源管理

冷却技术选择：在满足 IT 热设计的前提下，优先选择低水强度的方案（例如强化空气侧自由冷却、干式/闭式冷却、热通道/冷通道封闭降低需水量），必要时采用再生/回用水替代淡水；
站点与水源：新建/扩容应优先考虑水资源承载力与再生水可得性，并与地方再生水/污水回用设施对接；
监测与控制：布设细粒度水表与气象–能耗耦合模型，实时估计 (rho_{s1,t}) 与 (rho_{s2,t})。

5.2 负载侧：水感知训练与推理调度

时段选择：在夜间/降温时段训练，或在水效率更高的园区运行；
跨站点迁移：基于实时/预报的 WUE 与碳强度，进行**“水–碳双目标”**的跨区域编排；
服务界面：向用户公开水效率时段/站点，鼓励“水意识”的推理调用（例如在 UI 或 API 中标记“水高效时段”）。

5.3 透明度与核算标准

将 scope‑2 水耗纳入报告：像碳一样，把发电侧用水作为标准披露项，提升开发者与用户的可见性；
统一口径：在取水 vs 消耗、现场 vs 链路、边界与时空分辨率等方面形成行业一致性；
数据与模型开放：推动公共数据集与基准，支撑研究社区复现与比较。

5.4 供应链与政策

范围三研究：面向芯片制造/封装/测试的用水清单、地域差异与工艺改进（化学品循环、超纯水回用）；
政策协同：在缺水地区设置水足迹阈值/价格信号，鼓励需求侧弹性与再生水；
企业治水：将“企业水资源管理（water stewardship）”纳入 ESG 核心指标，与减碳并行推进。

6. 方法落地：如何做一份“AI 用水账单”

确定边界：训练/推理任务的服务级别、站点/区域、评估窗口 ([1,T])；
采集参数：逐时的 (e_t)、(theta_t)、(rho_{s1,t})、(rho_{s2,t})（后两者需结合气象与电网燃料结构）；
计算与分解：按式（1）求得运营水足迹，并与站点/时段分解展示；
加入范围三摊销：依据可得的制造用水数据，按设备寿命 (T_0) 做摊销，给出整体用水足迹；
情景比较：夜间 vs 日间、站点 A vs 站点 B、“跟随太阳”vs“背离太阳”，形成水–碳二维对比，支持决策。

7. 讨论：数据缺口、模型—设施协同与用户行为

数据缺口：范围三的芯片制造用水仍缺公开高分辨率数据；
协同优化：把模型规模、训练节奏、并行策略与设施侧水–能–冷联动；
用户偏好：当平台透明披露水效率后，部分用户愿意在水高效时段或水高效站点进行推理（以价格/绿标签等激励），这将形成需求侧弹性，反过来降低系统总水耗。

8. 结论

AI 的水足迹不应再处于“隐形状态”。本文给出一套原则化估算方法，并以大型模型为例展示其现实量级；进一步指出水效率的时空多样性以及与碳优化的潜在冲突。我们呼吁：

在报告口径上系统纳入 scope‑2 水耗并推动范围三研究；
在工程实践上开展水感知调度与设施侧降耗；
在策略层上采用水–碳协同的整体方法，面向可持续 AI 的共同目标。

致谢（据原文）：作者部分工作受到 NSF CCF‑2324916、NSF ECCS‑2152357、CCF‑2324915 资助。

附录：符号与缩略语

(e_t)：时隙 (t) 的 IT 能量消耗
(theta_t)：时隙 (t) 的 PUE
(rho_{s1,t})：现场（scope‑1）水强度（取水/消耗）
(rho_{s2,t})：链路（scope‑2，发电侧）水强度
PUE / WUE：电源/水使用效率
Scope‑1/2/3：现场/供电链路/供应链（制造）

注：本文译稿用于学习与工程参考；如需学术引用，请以原文为准。

新闻中心