去中心化训练助力解决 AI 能耗难题
整合分散的算力资源,有望实现更节能的 AI 模型训练
人工智能能耗需求极高,AI 热潮背后的数据中心碳足迹庞大,前沿 AI 模型训练的碳排放持续攀升,这一问题尤为突出。
因此,科技巨头纷纷布局核能,期待以可靠、零碳能源支撑未来发展。但核电数据中心仍需多年才能落地,目前科研与产业界已采取行动遏制 AI 能耗增长。他们聚焦模型训练这一生命周期中能耗最高的环节,推动去中心化技术落地。
去中心化将模型训练分配至网络中的独立节点,而非依赖单一平台或供应商,让算力就近匹配能源 —— 无论是实验室闲置服务器,还是太阳能供电家庭的电脑。无需新建数据中心、扩容电网基础设施,去中心化可复用现有能源,避免额外能耗。
硬件协同
AI 模型训练是数据中心的核心任务,需在紧密连接的 GPU 集群间同步运算。但硬件升级速度难以跟上大语言模型规模的快速增长,即便超大型单一数据中心也无法满足需求。
科技企业开始整合多地数据中心算力。例如,英伟达推出 Spectrum-XGS 以太网,支持跨地域组网,“可满足跨地理分布数据中心的大规模单任务 AI 训练与推理性能需求”;思科推出 8223 路由器,专为 “连接地理分散的 AI 集群” 设计。
另有企业挖掘服务器闲置算力,催生 GPU 即服务商业模式。例如,Akash Network 是点对点云计算市场,自称 “数据中心版爱彼迎”—— 办公室与小型数据中心的闲置 GPU 持有者注册为供应商,有算力需求的用户作为租户,可选择供应商租赁 GPU。
Akash 联合创始人兼首席执行官格雷格・奥苏里称:“当前 AI 训练高度依赖最新、最高端的 GPU,行业正从仅依赖大型高密度 GPU,转向兼容小型 GPU。”
软件同步
除硬件调度外,去中心化 AI 训练还需软件层面的算法优化,联邦学习(分布式机器学习的一种)应运而生。
麻省理工学院计算机科学与人工智能实验室(CSAIL)去中心化信息团队负责人、首席研究科学家拉兰娜・卡加尔解释:“初始全局 AI 模型部署在可信节点(如中央服务器),服务器将模型分发给参与机构,各机构基于本地数据训练模型,仅向可信节点上传模型权重;可信节点对权重聚合(通常取平均值),整合至全局模型后回传参与者。该协作训练循环持续至模型训练完成。”
但数据与计算分布式部署存在弊端,例如模型权重频繁传输导致高通信成本,容错性不足也是问题。
奥苏里称:“AI 训练的核心问题是每一步都不具备容错性,单个节点故障,需重新加载整个批次数据。”
为攻克这些难题,谷歌 DeepMind 研究人员开发 DiLoCo 分布式低通信优化算法。谷歌 DeepMind 研究科学家阿瑟・杜亚尔称,DiLoCo 构建 “算力孤岛”,每个孤岛由一组芯片组成,不同孤岛芯片类型不同,同一孤岛芯片类型一致。孤岛相互解耦,仅定期同步信息。这种解耦设计使孤岛可独立完成训练步骤、减少通信,单个芯片故障不会影响其他正常芯片。但实验显示,孤岛数量超过 8 个后,模型性能会下降。
升级版流式 DiLoCo 进一步降低带宽需求,杜亚尔称:“通过多步骤流式同步信息,无需暂停训练等待通信,原理类似未完全下载即可播放的视频。流式 DiLoCo 在运算过程中,后台逐步同步信息。”
AI 开发平台 Prime Intellect 采用 DiLoCo 算法变体,在三大洲五个国家训练 100 亿参数的 INTELLECT-1 模型;0G Labs(去中心化 AI 操作系统开发商)适配 DiLoCo 算法,在带宽有限的隔离集群网络中训练 1070 亿参数基础模型;主流开源深度学习框架 PyTorch 也将 DiLoCo 纳入容错技术库。
杜亚尔称:“社区已完成大量工程工作,将我们的 DiLoCo 论文成果集成至消费级互联网环境下的系统学习中,我的研究能落地应用,我非常兴奋。”
更节能的 AI 训练方式
随着硬件与软件优化完善,去中心化 AI 训练有望解决 AI 能耗问题。麻省理工学院 CSAIL 的卡加尔称,该方法可 “以更低成本、更高效、更节能的方式训练模型”。
杜亚尔坦言:“DiLoCo 等训练方法复杂度更高,但实现了系统效率的合理平衡。” 例如,可利用地理跨度大的数据中心,无需搭建超高速带宽;且具备内置容错性,“单个芯片故障仅影响所属算力孤岛”。
更重要的是,企业可复用现有闲置算力,无需持续新建高能耗数据中心。Akash 大力布局 Starcluster 项目,目标是整合太阳能供电家庭的台式机、笔记本电脑用于 AI 模型训练。奥苏里称:“我们希望将家庭转变为功能完整的数据中心。”
奥苏里承认,参与 Starcluster 并非易事。除太阳能板与消费级 GPU 设备外,参与者还需配备备用电源电池与冗余网络,避免停机。Starcluster 项目正整合这些需求,降低家庭参与门槛,包括与行业伙伴合作补贴电池成本。
目前团队已开展后台开发,支持家庭作为供应商接入 Akash Network,计划 2027 年实现目标。Starcluster 项目还将拓展至学校、社区中心等太阳能供电场所。
去中心化 AI 训练为 AI 迈向环境可持续发展提供可行路径。奥苏里认为,其核心价值是 “让 AI 就近使用能源,而非将能源输送至 AI 所在处”。











评论