AI/ML数据中心的多太比特互连解决方案
即使在AI出现之前,从物联网到云计算的一系列数字创新就已经产生了对数据中心服务的前所未有的需求。在这一需求之上,生成式AI、大型语言模型(LLMs)及其他耗电量大的AI相关工作负载的需求如洪水般涌现。因此,AI/ML数据中心正在迅速转向多太比特网络传输速度,以跟上AI相关工作负载所需的计算资源的不断增加。
尽管当今的数据中心主要依赖于400-Gb以太网(400G)网络设备,但根据Dell’Oro Group的预测,到2025年,大多数AI后端端口将达到800G。而到2027年,大多数AI GPU集群预计将达到1.6T。更高速度的网络技术消耗更多的电力并产生更多的热量,这促使数据中心运营商寻求更节能、低成本的基础设施解决方案。
其中一个创新领域是高速互连技术,它负责在AI加速器、交换机、服务器及其他组件之间传输数据、应用和工作负载。传统的选择是铜缆和光纤互连,每种技术都有显著的优势和挑战。
一种更新的解决方案是通过塑料电缆进行射频传输,简称e-Tube。这为GPU集群的后端扩展提供了一个引人注目的第三选择,特别是在需要太比特以上速度以支持AI/ML工作负载的情况下。
铜缆和光纤互连的权衡
长期以来,铜缆直连电缆(DAC)一直是400G网络设备的默认选择。铜缆互连因其简单、便宜、可靠,且非常适合短距离应用(如机架顶部的交换机连接)而闻名。然而,随着网络速度的提升以支持800G甚至1.6T以太网及更高速度,铜缆互连的局限性变得越来越明显。
铜缆在速度增加时会遭受显著的信号损失(如图1所示),特别是在短距离的应用中,这成为一个问题。尽管技术上可以通过使用更厚的铜线来延长电缆长度,但这样一来,DAC本身会变得过于厚重和僵硬,无法部署。
因此,企业和超大规模数据中心纷纷转向光纤互连,包括有源光缆(AOC),用于许多AI相关工作负载。由于光纤通过光信号传输数据,传输速度更快,距离更长,并且信号损失极小。此外,光纤互连比铜缆明显更薄、更轻。
然而,光纤互连也比铜缆复杂得多,耗电量更大,且成本更高,因为它们需要昂贵的电光组件进行电光转换。与铜缆相比,光纤互连的成本可能高达7倍(如图2所示)。
随着网络速度的增加,光纤互连的功耗迅速上升(如图3所示)。这种成本和功耗问题使得完全依赖光纤解决方案来实现多太比特速度变得不切实际。
为了应对光纤互连的一些问题,诸如共封装光学技术(CPO)等创新应运而生,这些技术支持更好的能效和更高的密度。然而,共封装光学仍然面临传统光纤解决方案的成本、散热、功耗和可靠性挑战。尽管它们可能为中层交换机提供一个可行的解决方案,但对于高容量的机架内、相邻机架和背板应用而言,共封装光学仍然在成本和功耗方面存在较大的限制。
e-Tube:更好的射频传输替代方案
鉴于铜缆的物理限制以及光纤互连的高功耗和高成本特性,人们对低功耗、低延迟且具有成本效益的多太比特可扩展互连技术的兴趣日益浓厚。e-Tube技术是一种通过塑料电介质波导进行射频数据传输的可扩展互连平台,波导由普通的塑料材料制成。
e-Tube电缆的重量比铜缆轻80%,体积小50%。它们不会像铜缆那样在高频时遭受信号损失,因此同样的e-Tube内核可用于1.6T、3.2T,甚至更高速度的未来电缆。由于e-Tube是一种不需要功耗大的昂贵光学组件的电子技术,电缆的能效大约比共封装光学(CPO)高50%,比传统的重定时光纤高约75%(如图4所示)。
e-Tube的延迟以皮秒计算,比传统光纤电缆快了三个数量级(如图5所示)。
在机架内和相邻机架的通信链路中,e-Tube电缆提供了比铜缆更低的损耗、更长的传输距离和更高的能效,成本相似。根据MSA定义的标准设计和测试,这些电缆可以与现有的数据中心网络设备生态系统兼容使用。
e-Tube电缆利用成熟的半导体工艺技术和电缆制造设备,最大限度地减少了电缆制造商的资本支出。由于比铜缆体积小50%,薄型的e-Tube电缆有助于消除机架拥堵,并使安装更加易于维护,使其成为太比特机架内和相邻机架应用中最多达7米的理想选择。
企业和超大规模数据中心需要权衡用光纤技术替代铜缆的所有优势和局限性。e-Tube为超大规模云数据中心、AI/ML GPU部署和高性能计算集群中的机架内和相邻机架部署提供了一个更好的选择。尽管没有一种解决方案可以满足所有需求,但对于数据中心中的AI/ML应用,e-Tube为其他新兴的光纤互连解决方案提供了一个有前景的替代方案(如图6所示)。
评论