明天的数据中心将不再像昨天——原因如下

组织规划、设计和运营数据中心的方式已经面临压力。人工智能将这种压力转化为一代难得的压力测试,激励人们从头到尾重新思考数据中心的功能、运作方式以及在哪里。
惠普企业UKIMEA咨询与专业服务总监戴夫·斯特朗说:“我们现在看到的情况是地震级的。”“这是我们在数据中心整体上见过的最大变化。”
多年来,组织一直把数据中心的管理视为一项需要付出汗水的资产。虽然高效、安全、高性能的数据中心资产对业务至关重要,但大多数数据中心运行的工作负载相对可预测。现在,引入动态且要求高的AI工作负载。AI驱动的商业创新检验数据中心基础设施是否具备卓越表现。
惠普对这个问题的回答基于三个方面:人工智能准备度、连接性和能源。为支持这三大支柱,公司开发了能够彻底改造数据中心以实现人工智能的解决方案。
一个创收资产
运行AI工作负载的能力决定了你是否按时发布新的数字产品并成功实现业务流程自动化,还是被数据淹没,落后于更敏捷的竞争对手。因此,HPE声称我们应将一个面向未来的数据中心视为一种可投资的创收资产,而非一个需要降低成本的中心。
这种收入影响可能以多种方式体现:
更快的变价时间: 更高效的基础设施、软件和服务流程加速了组织的生产力曲线。
全栈优化: 软件在最佳硬件上运行更高效,可以快速提升AI为业务带来的服务。
新型高性能服务:AI新颖应用的创新潜力更大。
能源和热能再利用:过去的废弃物可以抵消成本。
斯特朗警告说:“如果客户不考虑如何从将数据中心视为商品,转向改变其盈利方式的做法,他们将陷入困境。”
AI工作负载的全栈设计
对于希望在自有数据中心运行人工智能的组织,HPE提供了AI工厂。这是一种端到端的方法,将数据中心视为生产系统。在动力、数据和计算中。代币以洞察、决策和新的数字服务的形式出现。
人工智能工厂需要不同的工程学科。HPE的AI Factory产品组合是作为全栈构建的。将它作为一个连贯的堆栈,使IT领导者能够优化整体成本和风险,而不是在每一层单独应对。基础设施、软件和服务共同设计,用惠普的术语来说,是“从边缘到百亿次”驱动人工智能工厂。
强力的分解层叠成熟悉的层次:
基础设施:电力、制冷以及新容量的建立能力。
计算与存储:在传统CPU与加速GPU平台之间实现AI工作负载的最佳平衡。
软件栈:提供数据质量、模型开发和平台访问。
运营工具:自动化和AIOp,确保系统运行,几乎无需人工干预。
“惠普企业处于一个很好的状态,因为我们确实拥有端到端的能力,”斯特朗说。“我们制造数据中心,拥有你与人工智能工作负载相关的计算和存储,我们拥有用于生成用例和提升数据质量的软件栈,以及为组织提供平台可访问性,帮助组织实现他们想要的成果。”
TELUS在加拿大采用HPE设计理念建设的基础设施,是该国首个完全主权的人工智能工厂的典范,位于魁北克里穆斯基,旨在服务包括公共服务、医疗、关键基础设施和金融服务等高度监管领域的客户。人工智能工厂100%由加拿大控制,99%采用可再生能源供电,基础设施由惠普提供。在大西洋彼岸,布里斯托尔超级计算中心的IsambardAI超级计算机基于HPE的ModPod架构构建。HPE还提供英国国家人工智能倡议 Carbon3.ai 的AI工厂基础设施、软件栈和合规准备架构。
位置、电力与模块化数据中心的理由
传统的数据中心规划始于房地产:寻找场地,获得规划许可,建造大型设施,并逐步填充。AI工作负载破坏了这种商业模式。
斯特朗指出,传统IT机架的功率可能为6到8千瓦,而最新路线图上的AI机架可接近600千瓦。这是一个数量级的偏移,使位置问题不仅仅是空间问题,而是能源和网格的问题。仅凭性能配置,数据中心经理就可能推翻现有的开发计划。
HPE对此问题有多种解决方案。快速部署靠近能源源或社交便利场所的AI原生数据中心的一种方式是部署AI ModPod:这些集装箱体积小,密度高,快速部署,靠近合适的电源,包括可再生能源。Strong指出,在英国及类似地区,获得许可和建设传统数据中心的过程可能只需18到24个月。预制设计可以将这一时间缩短到六个月或更短,这正是保持AI创新领先所需的时间尺度。
模块化概念意味着能源、地理位置和主权可以共同处理。企业可以在有清洁电力的地方部署高密度AI集群,这样可以让延迟敏感的应用更靠近终端用户或数据源,并让企业通过更多模块扩展,而不是把所有资源都押在一个大型站点上。
拥有现有数据大厅空间的企业必须考虑尽可能提高效率。其中一种方法是实现直接液冷,HPE现在可以在整个机架实现。
能源优先设计与热能再利用
人工智能工厂天生就注定是耗电欲高。能源战略——始终重要——成为一级建筑决策。斯特朗将这一决定分为两个阶段。
“如果我们谈论的是巨大的电力,首先要考虑的是你将从哪里获得这些电力,”他说。“第二个是你打算如何利用这些平台产生的热量——以及你如何再利用它们。”
HPE与丹福斯的合作正是针对第二个问题。两家公司将惠普的模块化数据中心与Danfoss热能再利用技术结合起来,降低数据中心能耗,并将多余热量导入本地供暖系统。HPE的模块化设施采用直接液冷,整体能耗降低20%,而Danfoss的热能再利用模块则可收集这些“废热”能量,并将其输送到区域供热网络或工业应用中。
这意味着,AI工厂可以通过提高冷却效率来降低其电力使用效率(PUE)。HPE的模块化数据中心PUE为1.1。通过向附近建筑或加热应用输送热量来提升能源再利用率(ERF),并支持本地可持续发展目标。它甚至可能通过热量取用协议产生收入。
网络作为循环系统
AI工作负载涉及在边缘位置、训练集群和下游应用之间传输大量数据,且在近实时应用中具有严格的延迟限制。即使是最优雅的人工智能工厂设计,如果网络成为瓶颈,也会失败。安全、具备AI支持的数据中心网络简化并自动化了织体。他们使用AIOps和基于意图的网络技术来保持大规模性能。这意味着数据中心内的高速互联,支持GPU丰富的集群,以及边缘站点与中央资源之间的智能路由。此外,假设这些敏感AI工作负载的安全控制将分布在多个地点。
斯特朗认为,关键不仅是投入带宽解决问题,而是通过平衡哪些决策在边缘做出,哪些决策需要转移到中央AI集群来实现性能。举个例子:当与运营卫星的客户合作时,先将所有数据推送到中继站再传到数据中心是不可行的;HPE创建了一种架构,处理靠近中继站的数据,只移动所需的数据。
利用人工智能自动化运营
你不能用昨天的运行手册来运营人工智能工厂。变革的复杂性和速度使得传统的手动作变得不可持续。斯特朗直言不讳地表达了目标:日常运营应“从人类工程角度尽可能轻描淡写”。
这需要可观测性和AIOps平台,这些平台能够持续监控应用、网络和硬件,然后自动做出决策。它们能检测应用是否正常,提前预测硬件故障,并在出现故障可能时将工作负载转移到其他节点。
“根本上,关键在于主动维护,”斯特朗说。“我们希望这些工程师去做高度智能的事情,创造人工智能的应用场景,让组织能够在未来最佳状态下消费人工智能,而不是把时间花在基础设施上。”








评论