边缘AI无处不在?这个浸没式冷却移动数据中心使之成为可能
StorageReview的Brian Beeler参观了一处采用浸没式冷却技术的模块化数据中心,并撰写了本文。在现场可以看到,Solidigm的超高密度存储解决方案有效节省了浸没式液冷Tank(储液箱)的宝贵空间。
DUG的 Nomad是一款坚固耐用的模块化数据中心,旨在将AI和高性能计算(HPC)直接引入边缘侧——无论环境多么偏远或极端。Nomad系统安装在标准尺寸的集装箱中,提供快速部署和即插即用功能,使用户组织能够在数据生成的地方就地处理数据。
DUG专有的浸没式冷却技术是其有效性的核心。硬件组件浸入专用介电液中,大大提高了能源效率,降低了维护成本,并显著延长了硬件的使用寿命。该方案可在恶劣环境中支撑持续的 AI/HPC 计算任务,通过高效管控高强度作业所需的热工条件,确保系统性能始终一致,稳定可靠。
为了亲身体验这个移动数据中心,我们前往华盛顿特区,ADACEN在那里举办了一场 Nomad 10的现场部署活动。我们在现场探讨了浸没式液冷计算、密集存储和高效的热管理如何将数据中心级的功能直接带到边缘侧。
DUG Nomad——随时可用的移动数据中心
DUG Nomad专为多功能和快速部署而设计。它具有坚固的独立外壳,针对便于运输和快速设置而定制。其坚固的结构确保其在极端条件下(从干旱的沙漠到科考船)可靠运行。而这些环境条件对于传统的基础设施部署而言将极具挑战性,甚至是不可能的。一旦交付,Nomad可以在数小时内投入使用,从而在需要的地方提供即时的计算、AI和HPC功能。
Nomad技术优势的核心是其浸没式冷却系统DUG Cool。DUG Cool将计算硬件直接浸入专用的介电液中。在这种情况下,Nomad使用嘉实多的数据中心油——您可能知道嘉实多来自汽车领域。嘉实多的专用油可提高浸没式冷却效率,优化热量传递,并确保硬件的长期可靠性。
浸没式冷却通过均匀散热来有效地管理热负载,使CPU、GPU甚至存储能够以最佳性能水平运行,而不会过热或降频。除了调节温度之外,浸没式冷却还可以保护组件免受灰尘、湿气、氧化和腐蚀等环境因素的影响——这些都是恶劣部署环境中的常见威胁,从而显著降低维护成本并提高整体可靠性。
Nomad的杰出工程壮举之一是如何在完全封闭的移动环境中处理热量。浸没式Tank(储液箱)吸收来自所有内部组件,包括CPU、GPU、RAM和存储的热量,并通过26U机架两端的两个集成热交换器循环。然后,一个封闭的液体回路将已被加热的流体循环到容器的后部,在那里,Carrier AquaSnap风冷液体冷却器将热量排放到外部环境中。这种紧凑的冷却架构通过带有保护网的格栅进气板吸入环境空气,并将热空气从侧面排出。Nomad的进气和排气之间只有10℃的温差,几乎可以在除了活火山之外的任何地球环境可靠运行。
DUG Nomad设备提供10英尺、20英尺和40英尺集装箱的可扩展配置,可满足广泛的计算需求。我们现场探索的Nomad是10英尺的型号,提供26个机架单元的可用空间。更大的集装箱可以容纳更多的浸没式Tank(储液箱),从而增加数据中心的占地面积。鉴于浸没式冷却服务器的密度更高,这足以满足许多用例的需求。对于那些需要更多算力的用户而言,更大的集装箱就派上用场了。
Hypertec——原生液冷服务器
支持Nomad的边缘业务需要专门设计的服务器,而不是经过改装的风冷装置。Hypertec 的浸没式Ciara Trident服务器专为浸没式冷却环境而设计,采用了无风扇设计。这提高了电源效率,并使得Tank(储液箱)内的硬件获得更高的部署密度。
Hypertec浸没式冷却服务器因其无风扇设计而脱颖而出,这带来了浸没式服务器所能提供的大部分的能效改善。这些服务器的另一个有趣的设计元素是:所有存储、I/O和电源连接都经过精心设计,位于每台服务器的正面(顶部),使得访问和日常维护变得简单。电缆专为浸没式冷却而设计,保持柔韧且易于管理。许多其他专为浸没式设计的关键组件均由Hypertec开发。此外,Hypertec还提供支持各种粘度等级冷却油的专用散热器,为客户提供浸没式冷却液的灵活性。
如果遇到无法简单热插拔维护的情况,可以将较小的Hypertec刀片单元从Tank中取出,这只需要简单的手工操作。Nomad内部的小型内置起重机系统可用于更大的存储服务器和GPU服务器。
Solidigm——占得液冷先机
当思考如 Nomad 系统中的边缘 AI 的用例时,人们很容易聚焦于计算服务器和 GPU 服务器的重要性与效率。然而,该解决方案的魅力之一在于其能够在极端边缘端收集和分析数据。因为从现场直接返回数据中心的线路可能是非常低效或不可行的。Solidigm是SSD密度领域的领导者,能够实现高达122.88TB的卓越存储容量。这意味着在紧凑的1U Hypertec存储服务器机架单元内可容纳近2PB的存储容量。
这种密度优势在DUG Nomad等浸没式冷却环境中尤为重要,因为物理空间受到严格限制,每U机架空间都很重要。Nomad的客户可以利用Solidigm的超高密度存储解决方案,最大化每U的存储容量,为GPU服务器留下宝贵的Tank空间。这种密集、高效的存储和强大计算资源的战略平衡,最大限度地提高了边缘部署的整体性能和能力,使 Solidigm的高密度SSD成为先进的、空间优化的数据中心设计的基石。
如果客户需要更高性能的存储,Solidigm也有答案,那就是新D7-PS1010系列SSD。这些驱动器利用PCIe Gen5接口大幅改善了吞吐量和延迟,这对于实时数据分析和要求苛刻的AI工作负载至关重要。虽然我们在这里谈论的是浸没式冷却,但Solidigm在液体冷却上遥遥领先。他们最近推出了世界上第一款液冷企业级SSD。去年年底,Solidigm就在讨论SSD电源状态对液冷服务器整体功耗的影响。
结论
DUG Nomad体现了移动浸没式冷却数据中心未来的发展方向,能够在数据生成的任何位置提供可靠、高性能的计算、GPU和存储。通过将DUG经过验证的浸没冷却技术(他们自己的数据中心部署了400多个浸没式冷却容器),以及专门定制的Hypertec服务器和Solidigm超高密度闪存相结合,这个平台充分展现了边缘的一切可能性。无论是部署在偏远的沙漠、或者船舶上,还是城市环境中,Nomad 都能为传统基础设施无法触达的地方带来数据中心级的性能。
评论