新闻中心

EEPW首页 > 业界动态 > 毋惧炎炎高温:OCP如何应对下一代数据中心的散热设计挑战

毋惧炎炎高温:OCP如何应对下一代数据中心的散热设计挑战

作者:莫仕公司 时间:2022-04-01 来源:电子产品世界 收藏

随着数据密集应用不断增长,超大规模数据中心的工作负荷日益繁重。数据中心内的网络流量显著增加,促使架构师开始寻找新方法以实现更高的数据速率和吞吐量。

本文引用地址:https://www.eepw.com.cn/article/202204/432707.htm

目前, 最先进的网络适配器(NIC) 达到每端口200 G 速率。然而,为了满足数据中心日益增长的需求,业界正朝向使用400 G NIC 方向发展,但前提是相关的支持技术需要同时进步,而这绝非易事。Molex(莫仕)深入探讨伴随这项转变而来的散热挑战,以及我们的合作工作小组解决这些难题的独特方法。

400G运作的散热挑战

下一代数据中心会过渡至400G 网络适配器,因而面临各种散热方面的难题。

我们面对的第一项挑战是更高的数据速率会消耗更多的功率。通过广泛的研究、试验和仿真,我们发现数据速率和热量产生之间的关系大致是线性的,其中数据速率提高一倍,将使得系统发热量增加两倍以上。结论是什么?那就是网络适配器速率从200 G 转变成400 G后,系统热量将会大幅增加。

第二项挑战则在于需要可支持400 G NIC 的基础设施。与使用无源直接连接电缆(DAC) 的200 G NIC 不同,有时400 G NIC可能需要使用大功率有源光缆(AOC)来支持高数据速率。这些大功率AOC 的功耗可高达8W,会将自身的热量导入系统,再加上以高速率运送数据,使得温度不断升高。

质疑基础设施

这些迫在眉睫的散热挑战,使得我们对目前NIC 环境基础架构中某些零组件的可行性产生怀疑。我们与英伟达(NVIDIA) 和Meta 两家公司合作,更加深入地研究这个难题。

一项研究重点是外形尺寸。具体而言,我们调研了使用OCP NIC 3.0 业界标准小型光纤连接头(small form factor,SFF) 产品的可行性,看看它能否匹敌早前提出的TSFF(tall SFF)。众所周知,TSFF 可以提供更多空间,因此能实现更优异的I/O 散热解决方案。在理想情况,系统架构师可以在可能的情况下继续采用SFF。真正的问题在于,SFF 是否能为400 G NIC 提供可行的解决方案?或者我们是否需要转而将TSFF 定为业界标准?这个问题很难给予直接的答复,因为有几个变量可能会对结论有所影响。出于这个原因,我们的研究工作考虑了许多可能显著影响散热性能的因素,包括以下几个方面。

●   外形尺寸:TSFF 对比SFF。

●   NIC ASIC 功率限制( 仅限使用DAC 电缆)。

●   模块类型:QSFP-DD Type 1 对比Type 2 A。

●   监测位置点:机箱后部上方的平均温度、散热器

底座温度和前端温度。

●   测试装置类型︰有/ 无测试装置。

●   冷信道对比热信道。

模拟试验的设置与假设

每一摄氏度温度的变化,都对结论有影响。由于涉及到可行性,因此有必要确保模拟试验反映着现实且合理的使用状况。

对此,我们的模拟试验同时使用了TSFF 和SFF 两种外形尺寸的OCP NIC 3.0 网络适配器来建立模型。英伟达公司慷慨地为研究提供了进行模拟试验的ASIC 原型设计散热模型ConnectX-6 DX。为了进行模拟试验,我们假设功率上限为23 W,并根据配备标准铝制散热器的装置建立了模型。

对于QSFP-DD 类型模块,我们使用了常态功耗为10.2 W 的多信道散热模型。与ASIC 原型设计相似,我们选择为QSFP-DD 模型配备了标准铝制散热器,使得覆盖的受热表面积最大化,但不采用任何先进的冷却技术或材料,目的是了解前面所强调的变量之间的相对影响。

对于模拟试验的环境,我们同时测试了热信道和冷信道两种环境。热信道的环境温度为55°C,气流速度范围为200 至1 000 LFM( 每分钟线性英尺),气流方向从后至前。所有这些都符合OCP 3.0 技术规范。另一个不同环境是冷信道,模型环境温度为35°C,气流速度范围为200 到600 LFM,气流方向从前至后。如图1 所示,我们的模拟实验使用了符合英伟达OCP NIC 3.0 规范的测试装置,包括安装在测试盒内的两个相同的网络适配器。

1648791473900030.png

图1 在模拟测试中所使用的测试装置和模型设置

调研结果:外形尺寸的影响

通过模拟试验结果,我们了解到数个边界条件和变量如何对散热性能产生了非零影响( 即是超过几摄氏度)。

在调研中,第一个值得注意的结果是,外形尺寸对QSFP-DD 模型的散热性能造成了重要的影响。如图2所示,我们发现TSFF 的散热性能明显优于SFF,尤其是在气流速度较低的时候。在这种情况下,散热性能提升了多达6 C ° 。尽管这个结果并不令人惊讶,但6°C 的改进幅度确实很突出。

同样地,我们的研究结果显示,在热信道应用中使用TSFF 尺寸时,ASIC 原型设计的散热性能提高了10°C之多。另外,关于NIC ASIC原型设计的功率限制参数( 无源DAC 应用),与在热信道条件下使用SFF相比,采用TSFF 的模块功率限制增加了约2.5 W。

1648791577932151.png

图2 我们在模拟试验中发现TSFF的散热性能明显优于SFF

调研结果︰还须考虑其他变量

除了外形尺寸,我们的调研还深入了解模块类型和监测位置点对于散热结果的影响。在比较两款业界标准模块时,我们发现QSFP-DD Type 2 A 模块具有出色的散热性能,改进了大约4 C ° 。这项性能改进的主要原因是Type 2A 模块本身前端有一个外部整合散热器。同样地,这个结果并不令人惊讶,但非常突出。

最后,我们发现不同的监测位置点( 也就是模块上的探测点) 之间存在温度偏差。例如,仿真试验显示,散热器底座的监测温度相比前端的监测温度降低5 C ° 。如图3 所示,在量化NIC 模块的热性能时,监测位置点显然是不可忽视的考虑因素。

1648791655672093.png

图3 所使用的监测位置点对散热结果有重大影响

调研结论

我们的调研深入了解了几个特定变量和边界条件对散热性能的影响,但结果并不是主要的结论。相比发现哪些设置“合理呈现真实环境”而言,更重要的是,这项研究表明业界迫切需要就这些变量和边界条件达成共识。

以模块类型和监测位置点等变量为示例,试验结果显示, 模块类型对于散热性能会造成重大的影响( ≅ 4°C ),这个发现带来一个问题:除了排除SFF 尺寸在400G NIC 的可用性之外,是否可以保留SFF 尺寸但改用Type 2 A QSFP-DD 模块呢?到目前为止,业界尚未达成共识。如要对SFF 的可行性得出真正的结论,首先要进行定义并在业界达成共识。

同样地,业界目前也没有针对监测位置点达成一致的标准。调研显示,监测散热性能的位置点会对仿真试验结果产生重大影响,差距甚至可高达5 C ° 。如果我们不能就监测位置点达成一致共识,那么所有的研究数据之间就缺乏一致性,这将导致无法真正地比较试验结果。这里再次强调,OCP 和整个业界要迈向400G NIC 发展,首先必须达成共识。

呼吁采取行动

如何才能达成关键的业界共识?我们认为模块、I/O、NIC、系统和数据中心多个专业领域需要参与更多。这样的合作将帮助OCP 更好地协调可实现的目标,并确定最合适的环境来进行这些可行性研究。而且,到目前为止的研究所涵盖的范围并不全面,我们还必须考虑其他的变量,包括采用QSFP-DD 有源电缆(AEC) 的可行性,预计其耗散热量低于AOC。

如果业界发现SFF 无法适用于AOC,下一步可能考虑使用AEC。此外,如果发展采用TSFF 尺寸网络适配器,就需要扩展研究内容,涵盖采用整合散热器的八个SFF 可插拔模块(OSFP-RHS) 端口的可行性。

业界多方合作对于达成散热设计共识极为重要,而OCP 将会发挥关键的作用。Molex 莫仕非常荣幸能与Meta 和英伟达合作,针对相关的下一代解决方案进行试验研究。我们三方合作设计测试方案,并仔细进行模拟以量化每一个已定义变量的影响,然后共同分析结果,并且在数据中心需要援手时,寻求达到新性能水平的方法。

(本文来源于《电子产品世界》杂志2022年3月期)



关键词: 202203

评论


相关推荐

技术专区

关闭