中国联通基于英特尔智慧节能方案推动数据中心节能减排
“气候和环境危机凸显了通过创新科技降低碳足迹的重要性。英特尔 与中国联通在数据中心节能减排方面的合作体现了双方在践行绿色 节能方面的承诺,也为业界提供了服务器能效提升的有益参考。我 们希望能够以这些合作成果为依托,推动以数字化转型和可持续发 展为综合目标的产业高质量发展。” — 李亚东 英特尔中国政企及全球 OEM 解决方案事业部总经理
本文引用地址:https://www.eepw.com.cn/article/202504/469225.htm“中国联通在新战略指引下, 制定了《建设新型数字信息 基础设施行动计划》和《算 网融合发展行动计划》,统 筹推进新型数据中心、云网 深度融合,通过与英特尔等 业界领先厂商的合作,探索 技术引领与管理效能提升, 贯彻落实国家双碳决策。” — 康凯 联通集团云网运营中心项目经理
概述 中国已经明确提出 2030 年“碳达峰”与 2060 年“碳中和”目标,实现双碳目标不仅有助 于降低对环境的压力,同时也是实现可持续发展的必然要求。为更好地响应国家政策, 助力经济社会绿色发展,并为全球应对气候变化贡献力量,中国联通将构建以绿色节能为主要特征的新型数字信息基础设施作为重点工作,实施了大量技术与管理举措,并取 得显著成效。 目前,中国联通的绿色化发展战略在数据中心领域已经广泛落地,有力地推动了低碳化 发展目标的实现。为了进一步推动数据中心的节能减排,中国联通与英特尔深度合作,充分利用英特尔智慧节能方案在数据中心实现节能减排。该方案能够通过软件和人工智 能 (AI) 模型对服务器能耗进行预测和干预,提高数据中心的运行能效,同时满足业务工 作负载对于服务级别协议 (SLA) 的要求,且无需对应用进行更改。目前,该方案已经在 实验室中,结合中国联通大数据等业务场景进行实验验证,被证明能够比基准方案节电 最多 28%1。中国联通与英特尔还计划进一步推动该方案在更多业务场景的扩展应用, 不断提升中国联通的绿色发展水平。
背景:控制数据中心能耗是践行双碳目标 的重要方式 当前,环境危机以及能源供应挑战日趋严峻,使得越来越多的人 将目光转移到了环境保护上。降低社会经济发展中的能源消耗、 建立人与自然和谐发展的绿色经济,不仅有助于降低对环境的压 力,也是实现可持续发展的必然要求。在中国双碳行动规划中, 已经明确了 “十四五” 与 “十五五” 期间,通过能源绿色低碳转型 行动、节能降碳增效行动、工业领域碳达峰行动、城乡建设碳达 峰行动等方式,实现碳达峰、碳中和。 但同时,能耗持续增长的整体趋势仍未改变。研究报告显示,由 于经济活动加速,2021 年全球能源消耗量增长 5.8%2,超过了 疫情前的水平,这凸显了低碳发展面临的严峻挑战。要推动社会 经济整体节能减排,实现云与数据中心的绿色发展至关重要。数 据显示,截至 2020 年底,中国数据中心耗电量已经突破 2000 亿千瓦时,能耗占全国总用电量的 2.7%,预计 2022 年耗电量 将达到 2700 亿千瓦时3。
作为全球领先的知名电信运营商,中国联通在 2021 年发布的 《“碳达峰、碳中和” 十四五行动计划》4 中,明确提出要 “不断 提高通信网络基础设施绿色化水平,助力行业绿色低碳高质量 发展迈上新台阶”。对于通信云的构建、管理和运维,中国联通 希望在保障 5G 等各类通信业务高效发展的同时,尽可能降低能 耗开销。 为了降低数据中心的能耗水平,业界普遍以优化数据中心能源使 用效率 (Power Usage Effectiveness,PUE) 为目标,降低空 调等附加设备的能耗。但是,PUE 降低到一定程度之后会进入 瓶颈期,而且,部分以降低 PUE 为目标的方案较为复杂,需要 大量的部署、建设工作,不仅建设周期较长,而且会导致总体拥 有成本 (TCO) 显著提升。 基于上述考虑,中国联通在推动降低数据中心 PUE 的同时,从 数据中心 IT 设备入手,进一步提升节能减排能力。要做到这一点,就需要更好地提升数据中心核心 IT 设备 — 服务器的能效水 平,对 CPU 功耗进行更加精准的调节,但这也会面临如下重要挑战:
• 虽然 CPU 制程与工艺在不断进步,但是由于数据中心工作负 载对于计算能力和算力密度提出了更高的要求,CPU 芯片整 体的热设计功率 (TDP) 不断攀升,这对于服务器的整体能耗 带来了严峻的挑战。
• 传统的 CPU 能耗控制方案通常采用业务弹性编排的方式,实 现部分冗余主机休眠、空闲核深度节能、轻负载核调频的目 标。但是,传统方案通常采用的是静态调整的策略,无法根据 业务调度进行灵活调整配置。在传统方案中,主机和内核常常 会整体关停,难以实现更细粒度的控制,能耗控制效果不尽如 人意。
• 传统的 CPU 能耗控制方案无法精准洞察、预测 CPU 的负载, 难以在精确控制功耗的同时有效管理 SLA,也就无法针对业务 的 SLA 要求对于能耗进行精细控制。
解决方案:
采用英特尔智慧节能方案实现 数据中心节能减排 为了进一步推动数据中心绿色发展进程,中国联通与英特尔于 2021 年开始合作,双方制定了整体的数据中心节能减排计划, 并从 5G 核心网开始探索,逐步扩展到大数据等领域,不断推进 智慧节能方案的落地。双方将现阶段合作的重点放在服务器节能 减排领域,并采用英特尔智慧节能方案更加精准、智慧地预测、 控制服务器的能耗,从而在满足业务工作负载对 SLA 要求的前 提下,更大程度地提升节能水平。
英特尔智慧节能方案
英特尔智慧节能方案是依托英特尔® 人工智能方案和服务器平台 技术的节能减排方案,通过 AI 模型和软件方案进行预测和干预, 提高数据中心的运行能效。英特尔智慧节能方案采用智能遥测 (Intelligent Telemetry)、基于 Chronos 的时序数据分析、 英特尔® 至强® 平台级能效控制、基于容器运行时接口的资源管 理器 (CRI-RM) 动态资源管理策略等构件,能够有效满足业务工 作负载的 SLA 要求,且无需对应用进行更改。
智能遥测
英特尔智慧节能方案选择了开源监控组件 Prometheus。 作为云原生事实上的标准遥测工具,Prometheus 用于收 集和聚合指标作为时间序列数据,并提供了 collectd 作为 系统统计数据收集守护进程,可以通过多种方式发布这些 数据。英特尔还开发了高性能 Python 插件来获取不受支 持的指标,以提高性能、减少开销。
基于 Chronos 的时序数据分析
Chronos 框架源自英特尔开源的统一大数据分析和人工 智能平台 BigDL,在模型训练中能够使用全部参数训练回 归模型,自动分析提取重要参数,仅使用重要参数训练预 测模型。在模型推理中,Chronos 框架能够预测工作负 载变化,在查询网络中寻找更优控制参数,通过 CRI-RM webhook 来应用新的更优控制参数。
英特尔® 至强® 平台级能效控制
英特尔智慧节能方案提供了英特尔® 至强® 平台级功耗控制 选项,融合操作系统层面的系统能源调节、CPU Turbo、 驱动,处理器能效级别的 EEP 控制、SAPM 控制、动态 切换,以及能级状态的 PCS 状态调整,以针对不同场景 提供更佳配置。方案提供细粒度的硬件控制旋钮,动态切 换控制处理器内部的众多算法。
基于容器运行时接口的资源管理器 (CRI-RM) 动态资源管理策略
该特性能够通过在节点上的动态划分系统资源,配合 Kubernetes 调度器,实现在节点层面上的合理任务编排, 将英特尔平台的特性高效适配到 Kubernetes 的集群环境。 CRI-RM Balloon Policy 支持控制 CPU 核心频率与非核心 频率,用户可以基于 CRI-RM Balloon Policy 创建 CPU 资 源池,为不同类型的工作负载定义 Balloon 类型,并能够动 态更改 CPU 类和 Balloon 大小配置。
英特尔智慧节能方案能够对英特尔® 至强® 可扩展处理器的各种运行指标进行智能遥测,在提供可视化监视支持的同时,将遥测数据 输入到闭环控制逻辑之中,在操作系统层面、处理器能效级别、处理器能级状态进行细粒度控制,以针对不同场景提供更佳的能效控 制。在单节点闭环控制的基础上,英特尔智慧节能方案能够便捷地扩展到集群闭环控制(如图 3 所示),有效提升数据中心的整体能效水平。
与传统服务器节能方案相比,英特尔智慧节能方案能够进行更加智慧的峰谷预测,在闲时支持更多冗余主机休眠,显著提升节能效果。
英特尔智慧节能方案还可根据业务 SLA 进行智能调频,提供更细粒度控制,以及更多功耗控制抓手,在业务 SLA 要求与节能效果之
间实现更佳的平衡。
中国联通采用英特尔智慧节能方案优化数据中心能耗
中国联通在通信云资源池的 5G 网元、大数据等业务上,对业务 数据、处理器占用率进行了分析。结果显示业务量与时间相关, 且存在波峰波谷特性,在业务运行期间,可通过实时检测业务 负载、业务质量指标的变化,来灵活调整服务器的运行状态,实 施动态节能减排。 基于英特尔智慧节能方案丰富的组件和集成的优化策略,中国联 通从如下流程入手,提升节能减排效果:
• 在服务器运行过程中,利用英特尔智慧节能方案支持的众多组 件对于服务器的各种运转状态进行智能遥测,将相关信息提供 给闭环控制逻辑;
• 基于业务数据进行建模,由英特尔智慧节能方案提供的 API 接口对时间序列数据快速执行填充、缩放等操作,并开展自动 特征生成;
• 实现超参数搜索,并根据预测目标检索出更佳超参数集,优化 模型和数据处理工序并形成时间序列预测模型;
• 使用这一模型对实时业务数据进行推理(或进行效果评估和优 化),获得最终的处理器占用率预测数据;
• 根据预测数据来进行基于 AI 的智能控制,使得 C/UFreq 紧密 跟随工作负载变化,在节省更多功耗的同时,时延性能可以满 足业务工作负载的 SLA 需求。
在前期,中国联通与英特尔针对 5GC 网元业务应用场景进行测试。如今,双方又针对大数据业务进行方案部署与测试验证。在 中国联通大数据业务中,工作负载随时间有着明显的波动,波峰 波谷差异较大,通过在波谷时采用节能措施,有望实现较为显著 的节能效果。
基于上述特征,中国联通设计了基于英特尔智慧节能方案的节能 原型。该原型从批处理业务场景入手,首先利用负载峰谷时的场 景特征,通过在波峰时使用默认高性能配置,波谷时使用自动低 功耗配置,并根据需要设置 CPU cfreq 和 ufreq 等手段,达到节能效果。
测试数据如图所示,英特尔智慧节能方案比基准方案节能 28.6%5。这在很大程度上是由于英特尔智慧节能方案能够支持 Cfreq 自适应调节,而基准方案则一直保持高频,因此前者耗能远低于后者。
推衍到整体云资源池中,这一举措预计每年可直接节电数千万度,再加上数据中心既有 PUE 方案带来的节能降耗,预计每年 可减少二氧化碳排放数万吨。
展望 基于英特尔智慧节能方案的中国联通节能减排策略实现了预期的成效,在不对数据中心进行硬件改造的前提下,双方显著降低了 5GC 网元、大数据业务中的服务器能耗,同时满足业务工作负 载的 SLA 级别。得益于服务器的节能减排,并叠加其他节能措 施,中国联通能够大范围、更大规模地提升节能减排水平,助力绿色数据中心建设。英特尔还发布了 “英特尔绿色数据中心技术框架”,与客户和产业链共同推动数据中心绿色可持续发展。在当前合作成就的基础上,中国联通与英特尔计划开展进一步合作,持续增强节能水平,合作方向包括:
• 将英特尔智慧节能方案扩展到更多的业务场景,助力中国联通 实现双碳目标。
• 将节能范围扩展到网络、外设、数据中心环境等领域,尽可能 地降低数据中心整体能耗水平。
• 充分利用新一代英特尔® 处理器上的性能核和能效核策略,基于 工作负载对内核进行高效调度,实现性能与能耗的卓越平衡。 • 在对 CPU 能耗进行精准控制的同时,推动创新的节能技术在 GPU 等更多加速器中的应用。
• 强化实时学习、自动机器学习 (AutoML) 和增强学习等创新技 术的应用,进一步提升节能效果。
通过上述合作探索,英特尔将助力中国联通形成更高效、更智能 的数据中心能耗管理策略,显著提升节能减排水平,更快更好地 将构建新型数字信息基础设施行动计划落到实处。
评论