新闻中心

EEPW首页 > 网络与存储 > 设计应用 > 通过端到端1.6T互连测试提升AI网络可靠性

通过端到端1.6T互连测试提升AI网络可靠性

作者: 时间:2026-01-06 来源: 收藏

时代”已经到来,正在改变我们的工作和生活方式,但它也在推动的极限。训练大型语言模型(LLM)需要大量计算和内存,分布在高度互联的GPU集群中。

为了跟上模型的复杂性和规模,超大规模运营商正竞相将网络升级为800GE和1.6T以太网。但通过更高带宽的互联提升网络容量只是故事的一部分。真正的挑战是如何提升互联的可靠性和效率,以承受持续AI训练工作负载的压力。

AI网络的速度取决于集群之间最薄弱的环节。每一个收发机、电缆和连接器都会影响系统范围的吞吐量、延迟和可靠性。性能瓶颈、互作性差距和尾部延迟会破坏模型训练。随着运营商将网络升级至1.6T及更高,网络架构师必须考虑每个组件在重AI工作负载和现实环境中的性能。

按规格建造只是开始。收发器必须从设计到制造经过严格验证,以确保不仅是互作性,还能在实际条件下实现系统级最佳性能。

本文探讨了为AI数据中心启用1.6特斯拉网络的挑战,并重点介绍了在物理层及更广泛层验证设备性能的最佳实践。你将更深入地理解重要的指标、所需工具以及策略,确保组件经过压力测试并准备好在AI规模下部署。

互联如何成为数据中心瓶颈

训练大型语言模型不仅仅是计算能力的问题——它要求在庞大的GPU集群之间实现快速、同步的通信。这些集群由分散的服务器构建,通过高速电气和光纤互连连接。

训练被拆解并在不同的集群节点间并行处理,每个节点负责模型的一部分。所有节点必须保持同步才能高效推进(见图1)。

1767676070720736.png

1. 训练变慢和工作负载失败是由网络未优化引起的。

随着工作量的增加,失衡的风险也随之增加。并行性在节点之间建立了强烈的相互依赖关系。每个节点代表网络中的潜在薄弱环节。单个性能不佳的链路,无论是收发机、电缆还是交换机,都可能成为整个集群的瓶颈。在未优化的网络中,GPU有一半以上的时间处于空闲状态,等待下一个任务,原因是互联速度缓慢。

为了优化AI工作负载处理,数据中心运营商需要对网络中的每个组件和互联进行压力测试。收发器故障是导致工作负载故障和尾部延迟的主要原因,近50%的训练任务因网络或计算问题而失败。这使收发器和互联制造商不仅要设计符合规格表,还要在AI数据中心常见的高温和高负载条件下实现高利润率的性能。在物理层验证收发器合规性

防止互联成为AI数据中心瓶颈的第一步是进行物理层性能验证。在开发过程中,每条224 Gb/s的电气和光学通道都必须严格测试信号完整性、互作性以及在代表AI训练负载的压力条件下的实际可靠性。

电气发射机和接收机测试

1.6T收发机必须满足每个224 Gb/s电气和光学通道日益严格的信号完整性和噪声容忍要求。IEEE P802.3dj 用于 1.6T 以太网的标准规定了发射端抖动、发射端色散惩罚、比特错误率以及信噪比和失真比的限制。

此外,AI数据中心的实际工作负载会让设备远远超出正常的运行极限。在日益严格的物理层规范下确保性能余裕虽困难,但对设备的可靠性和互作性至关重要。

信号完整性对电气测试至关重要。关键的发射器测量包括抖动、信噪和失真比、线性度以及信与残差-符号间干扰比。在发射机上对信号进行表征和调谐均衡,以实现最佳、最清晰的传输,是补偿信道损耗的关键。

开发者需要高带宽示波器用于信号捕获和分析(见图2)。合规自动化软件可以引导用户完成复杂的验证需求和测试,确定每个要求规范的合格/不合格状态。进一步的信号完整性和调试软件可以帮助解决棘手的一致性问题。


dfcc3bfd-d040-4713-9cc2-d5f238909151.png

2. Keysight的Infiniium UXR-B高带宽示波器运行IEEE P802.3dj符合性测试应用。

接收机测试涉及使用位误差率测试器(BERT)注入应力图案,并在劣化条件下量化错误率。这对于合规性测试是必要的,但对于线性可插拔光学(LPO)尤其重要,这是一种牺牲DSP以降低功耗的新收发器拓扑。这显著降低了网络接口卡和交换机的性能余裕,因为主机芯片必须适应更为失真和噪声更大的信号。

选择合适的BERT和示波器进行测试,关键在于选择使用正确调制格式和正确符号率的模式发生器和误差检测器(224 Gb/s信号时使用120 Gbaud PAM4)。

光学发射机测试

光学性能测试的核心在于准确测量发射机色散和闭眼四元(TDECQ)。TDECQ量化了在特定目标符号错误率(SER)下,真实发射机相较于理想参考所带来的功率损失。它将带宽限制、噪声和符号间干扰等损害汇总为单一指标。

以太网标准依赖TDECQ作为测试光收发器的主要标准,作为合规性的合格/不合格标准,因此它是提升收发器可靠性和互作性的关键区别因素。


评论


相关推荐

技术专区

关闭