AI网络架构或将进入“无交换机”时代
在当今数字化时代,人工智能(AI)技术的飞速发展正在重塑各个领域的基础设施,其中包括支撑AI运行的网络架构。传统的数据中心网络架构以交换机为核心,构建了层级化的数据传输路径。然而,随着AI大模型训练规模的爆炸性增长,这种传统架构正面临前所未有的挑战。
本文引用地址:https://www.eepw.com.cn/article/202506/471301.htm大模型训练带来了超密集的GPU/GPU通信需求。以目前主流的大语言模型为例,训练过程中需要在数千甚至上万张GPU之间频繁交换海量数据。这些GPU之间的通信不再是传统意义上的“服务器间通信”,而更像是“芯片间通信”。在这种情况下,数据中心已不再是简单的“服务器的集群”,而是演变为“芯片的集群”。
想象一下,如果我们把传统数据中心比作一个城市交通系统,那么服务器就像是分布在城市各处的办公楼,而交换机则是连接这些办公楼的道路网络。但在AI时代,这个比喻已经不再贴切。现在的AI数据中心更像是一个超大型工厂,每个GPU就像工厂中的一个工作站,它们需要高频率、低延迟地交换半成品,任何传输延迟都会显著影响整体生产效率。
在这种背景下,一个核心问题浮出水面:如果芯片间可以直接连接,交换机还需要存在吗?这就像是在问:如果工厂中的每个工作站都可以通过传送带直接相连,我们还需要中间的物流中转站吗?这个问题引发了对“无交换机网络”可能性的深入思考。
什么是“无交换机网络”设想?
所谓“无交换机网络”并非完全没有交换功能,而是指不再依赖传统的ToR(Top of Rack)/Leaf/Spine层级交换机拓扑结构的网络架构。在这种设想中,芯片/节点之间通过直接互联、片上网络或光互联等技术实现数据交换,而不必经过多层交换机的转发。
如果继续使用工厂的比喻,传统网络架构就像是工厂中的物料需要先送到车间集散点,再送到楼层集散中心,最后通过中央物流中心才能到达另一个车间。而“无交换机网络”则是在工作站之间建立直接的传送带,物料可以直接从一个工作站传送到另一个工作站,大大减少了中转环节和时间。
“无交换机网络”的发展主要沿着两条路径演进:
路径一:从“交换机集中化”向“连接分布式”演进
这条路径的代表是NVIDIA的NVLink/NVSwitch技术。在传统架构中,数据交换集中在网络交换机上进行。而在NVLink/NVSwitch架构中,交换功能被分散到各个计算节点或专用的交换芯片上,形成一种分布式的交换网络。这就像是取消了工厂中的中央物流中心,而是在每个车间或工作站附近设置小型的物料中转站,使物料传输路径更短、更直接。
路径二:从“网络设备”向”连接芯片”过渡
这条路径的代表是晶圆级网络和Chiplet互联技术。它将网络功能进一步下沉到芯片级别,甚至集成到计算芯片内部。这就像是将物流系统直接集成到工作站内部,工作站不仅具备加工功能,还具备物料传输和调度功能。在这种架构下,传统意义上的“网络”概念被彻底重构,变成了芯片内部或芯片间的直接互联。
这两条路径虽然出发点不同,但都指向同一个目标:减少数据传输的中间环节,降低延迟,提高带宽,更好地满足AI计算对网络的极高要求。
驱动“无交换机”趋势的核心力量
1. GPU计算集群的密度爆炸
随着AI模型规模的不断扩大,GPU计算集群的规模和密度也呈爆炸式增长。当前主流的大语言模型训练已经从早期的数百卡规模扩展到万卡级AI训练集群。在这种超大规模集群中,网络瓶颈已经成为制约性能提升的主要矛盾。
传统的多层交换网络架构在面对如此密集的计算节点时,不可避免地引入了额外的延迟、功耗和路径不可预测性。以一个典型的三层Clos网络为例,数据包从一个GPU传输到另一个GPU可能需要经过6-7跳的交换机转发。每一跳都会增加约1-5微秒的延迟,累积起来就会显著影响训练性能。
在我们的工厂比喻中,这就像是随着工厂规模的扩大,物流中转站越来越多,物料在各个中转站之间的传输时间甚至超过了加工时间本身。工人们大部分时间都在等待物料到达,而不是进行实际生产。这显然是极其低效的。
此外,多层交换架构的功耗问题也不容忽视。据估计,在大型AI训练集群中,网络设备的功耗可能占到总功耗的15-20%。随着集群规模的扩大,这一比例还会进一步提高。在能源成本和碳排放日益受到关注的今天,降低网络功耗已成为设计高效AI基础设施的重要考量因素。
2. 封装技术演进:Chiplet + Co-Packaged Optics
芯片封装技术的革新是推动“无交换机”趋势的另一个重要力量。传统的单芯片设计面临着摩尔定律放缓的挑战,而Chiplet技术通过将多个小芯片集成在同一封装内,为高性能计算提供了新的可能性。
在Chiplet架构中,同封异构互联正在逐步替代传统的板间通信。数据不再需要“上机架”,而是直接“走芯片”,大大减少了通信延迟和功耗。例如,AMD的EPYC处理器采用Chiplet设计,将多个计算芯片通过高速互联总线连接在一起,形成一个统一的处理单元。这种设计理念也正在被应用到AI芯片领域。
与Chiplet技术相辅相成的是Co-Packaged Optics(CPO)技术。CPO将光学收发器与交换芯片或处理器集成在同一封装内,实现电信号与光信号的高效转换。这种技术可以显著提高数据传输距离和带宽,同时降低功耗。目前,英特尔、博通等公司都在积极推进CPO技术的商用化。
回到我们的工厂比喻,这就像是将原本分散在不同车间的工作站整合到同一个超大型工作平台上,工作站之间通过内部传送带直接连接,无需经过外部物流系统。同时,为了连接较远距离的工作平台,我们使用高速传送带代替传统的物流车辆,实现更快速、更高效的物料传输。
3. 网络智能化趋势
网络智能化是推动“无交换机”趋势的第三个核心力量。传统网络架构中,路由和转发决策主要由交换机完成。而随着DPU(数据处理单元)和SmartNIC(智能网卡)的兴起,这些功能正在向网络边缘迁移。
DPU和SmartNIC提供了“端到端路径调度能力”,使得交换转发功能可以下沉到计算节点本身。例如,NVIDIA的BlueField DPU和英特尔的IPU都具备强大的网络处理能力,可以卸载主机CPU的网络处理负担,同时提供更灵活的网络功能。
在这种趋势下,AI网络不再依赖集中控制,而是向“边缘即网络”的方向演进。每个计算节点都成为网络的一部分,具备自主的路由和转发能力。这种分布式的网络架构更适合AI工作负载的特点,可以根据实际通信需求动态调整网络路径,提高网络利用率。
这就相当于每个工作站都配备了智能调度系统,可以根据生产需求自主决定物料的传输路径,而不必依赖中央调度中心。工作站之间可以直接协商,选择最优的物料传输方案,大大提高了生产效率和灵活性。
这三股力量——GPU计算集群的密度爆炸、封装技术的演进和网络智能化趋势——共同推动着AI网络架构向“无交换机”方向演进。它们从不同角度解决了传统网络架构面临的挑战,为AI计算提供了更高效、更灵活的网络基础设施。
已有探索:无交换/弱交换架构实例
1. NVIDIA NVLink / NVSwitch 架构
NVIDIA的NVLink和NVSwitch技术是当前最成熟的无交换/弱交换架构实例之一。NVLink是NVIDIA开发的高速互连技术,最初用于GPU与GPU之间的直接通信,后来扩展到GPU与CPU、GPU与存储设备之间的通信。
在最新的H100/H200 GPU架构中,第四代NVLink提供了高达900GB/s的双向带宽,远超传统PCIe接口的带宽。这使得GPU之间可以高效地共享数据,而无需通过主机内存或外部网络进行中转。
NVSwitch则是基于NVLink技术的专用交换芯片,可以将多个GPU连接成一个全连接网络。在NVIDIA DGX系统中,多个NVSwitch芯片协同工作,构建了一个“芯片网络”,使得系统内的所有GPU都可以以接近本地内存访问的速度相互通信。
以DGX H100为例,一个系统内的8个H100 GPU通过NVSwitch全连接,形成一个统一的计算资源池。多个DGX系统之间则通过NVIDIA Quantum-2 InfiniBand网络连接,构成更大规模的集群。在这种架构中,系统内部的GPU通信几乎完全绕过了传统网络路径,大大降低了通信延迟和带宽限制。
在我们的工厂比喻中,NVLink/NVSwitch架构就像是在工厂内部建立了一套高速传送带系统,将相关工作站直接连接起来,形成一个紧密协作的工作单元。这些工作单元内部的物料传输速度极快,几乎没有延迟,大大提高了生产效率。
2. Cerebras Wafer-Scale Engine
Cerebras的Wafer-Scale Engine(WSE)代表了另一种极端的无交换架构思路——将整个神经网络处理器集成在一个晶圆上,从根本上消除了跨芯片通信的需求。
传统的AI芯片,如GPU或TPU,都是将一个大型晶圆切割成多个独立芯片,然后通过封装和外部互连技术连接起来。而Cerebras的WSE则保留了整个晶圆的完整性,将其作为一个超大型处理器使用。最新的WSE-2包含2.6万亿个晶体管和85万个AI优化核心,所有核心都在同一片硅上,通过片内互连网络相连。
这种设计完全消除了传统AI系统中的跨芯片通信瓶颈,构建了一个“片内AI网络”,具有几乎无延迟、无Hop数的特点。在WSE上训练神经网络时,所有计算和数据传输都在同一片硅上完成,无需经过任何外部网络设备。
Cerebras WSE就像是将整个生产线集成在一个超大型工作平台上,所有工序都在这个平台上完成,无需任何外部物流。这种设计极大地简化了生产流程,提高了效率,但也面临着规模扩展的挑战——当需要更大的生产能力时,不能简单地增加更多工作平台,而需要设计更大的单一平台。
但晶圆级设计的良率和成本挑战较高,可能影响实际大规模部署。
3. Microsoft Optical Mesh
Optical Mesh是微软探索的一种基于光互联的数据中心网络架构。在这种架构中,计算节点通过光纤直接连接,形成一个网状网络,减少了传统交换机的层级。结合端点智能调度技术,这种架构可以根据实际通信需求动态调整网络拓扑,提高网络利用率和灵活性。
微软的这些探索表明,光互联技术结合端点调度可能是重构AI数据中心通信架构的重要方向。光通信的高带宽、低延迟和低功耗特性,使其成为支撑下一代AI基础设施的理想选择。
这好比是用光束代替传统的传送带连接各个工作站,光束可以根据需要动态调整方向和强度,实现更灵活、更高效的物料传输。
4. AWS Nitro架构中的极简网络分层
亚马逊AWS的Nitro架构代表了另一种弱交换网络思路——通过功能卸载和软件定义,实现“极少交换机+ 软件网络路径控制”的网络架构。
在Nitro架构中,传统服务器的网络、存储和安全功能被卸载到专用的Nitro卡上,这些卡类似于DPU,具备强大的网络处理能力。Nitro卡接管了虚拟机与外部网络的通信,实现了网络功能的虚拟化和软件定义。
这种架构大大简化了物理网络的复杂性,减少了交换机层级,同时通过软件定义实现了更灵活的网络控制。在Nitro架构支持的EC2实例中,虚拟机之间的通信可以通过Nitro卡直接完成,无需经过传统的网络路径。
AWS Nitro架构虽然没有完全消除交换机,但通过功能卸载和软件定义,大大减少了对物理交换设备的依赖,代表了网络架构简化和智能化的重要趋势。
在工厂比喻中,这就像是在每个工作站配备了智能物流控制器,这些控制器可以直接协商物料传输路径,减少了对中央物流系统的依赖,同时保持了整体生产的协调性。
5. 星融元星智AI网络架构
星融元(Asterfusion)的星智AI网络架构提出了一种针对大模型训练优化的扁平化网络架构,通过重新设计网络拓扑和通信路径,大幅降低了网络复杂度和通信延迟。通过消除跨GPU服务器不同GPU卡号之间的连接,只保留与GPU直接相连的Leaf层交换机,并将原本用于上连Spine的端口全部用于下连GPU。这种设计基于一个核心问题:在AI训练中,相同编号的GPU卡之间的通信需求最为频繁和关键。
具体实现上,星智AI网络要求不同智算节点服务器间相同编号的网口连接到同一台交换机。例如,所有服务器的1号RDMA网口都连接到1号交换机,所有服务器的2号RDMA网口都连接到2号交换机,以此类推。同时,在智算服务器内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的GPU卡和相同编号的网口关联。
这种设计使得相同GPU编号的两台智算节点间仅需一跳就可互通,大大降低了通信延迟。对于不同GPU编号的智算节点间通信,星融元利用NCCL通信库中的Rail Local技术,充分利用主机内GPU间的NVSwitch带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号互通。
总的来说,上述这些无交换/弱交换架构实例从不同角度探索了传统网络架构的替代方案,为AI网络的未来发展提供了重要参考。虽然它们各有优缺点,但都指向同一个方向——通过减少中间环节、增强端点智能、利用新型互连技术,构建更高效、更灵活的AI网络基础设施。
如果进入无交换机时代,会带来什么变化?
1. 拓扑不再关键,布局将变成“平面阵列”
在传统网络架构中,网络拓扑是核心设计要素。Fat Tree、Clos、Spine-Leaf等拓扑结构各有优缺点,网络设计师需要根据应用场景选择合适的拓扑结构。然而,在无交换机时代,拓扑的重要性将大大降低。
拓扑的本质是解决“绕线”问题——如何在有限的物理空间内,通过合理的线缆布局,实现节点之间的高效连接。但如果节点可以直接连接,或者通过更高级的互连技术(如光互联)实现任意节点间的直接通信,那么传统拓扑的意义就会减弱。
在无交换机架构中,网络布局将更倾向于“平面阵列”——计算节点按照物理距离和通信需求排列,形成一个二维或三维的阵列结构。这种结构更像是一个均质的计算网格,而非传统的层级化网络。
回到我们的工厂比喻,这就像是从“中央物流+分支配送”模式转变为“工作站网格”模式。在前一种模式中,工厂布局需要考虑物流中心的位置和配送路线;而在后一种模式中,工作站可以直接相连,布局更加灵活,更多地考虑实际生产需求而非物流限制。
这种变化将深刻影响数据中心的物理设计。传统数据中心的机架排列主要考虑网络拓扑和布线需求,而未来的AI数据中心可能更多地考虑计算密度、散热效率和直接互连的便利性。
2. 网络协议将更“端智能化”
在无交换机架构中,传统的L2/L3网络协议的作用将被大大削弱,取而代之的是更加智能化的端点协议和调度机制。
传统网络中,路由和转发决策主要由交换机和路由器完成,端点(服务器、工作站等)只负责发送和接收数据。而在无交换机架构中,这些功能将下沉到DPU、SmartNIC或计算芯片本身,每个端点都成为一个“微型调度单元”。
这种变化将催生新型的网络协议和调度算法。这些协议不再关注如何在复杂的网络拓扑中找到最优路径,而是更关注如何在直连或少跳的网络中实现高效的带宽分配和流量控制。例如,RDMA(远程直接内存访问)技术已经在高性能计算领域广泛应用,它允许网卡直接访问远程主机的内存,绕过操作系统和传统网络协议栈,大大降低了通信延迟。
在AI训练场景中,更智能的调度算法可以根据训练过程中的通信模式动态调整网络资源分配。例如,在模型并行训练中,不同GPU负责模型的不同部分,它们之间的通信模式是相对固定的。智能调度算法可以识别这些模式,预先建立优化的通信路径,进一步提高训练效率。
这就像是每个工作站都配备了智能调度系统,可以根据生产需求自主决定物料的传输路径和优先级。工作站之间可以直接协商,无需中央调度中心的干预,实现更高效、更灵活的生产协作。
3. 运维和可观测性范式转变
无交换机架构的兴起也将带来运维和可观测性范式的转变。在传统网络中,运维人员主要关注交换机的状态、流量统计和日志分析。而在无交换机架构中,这些关注点将转移到芯片行为、链路健康和端点状态上。
网络监控工具将需要适应这种变化,提供更细粒度、更实时的观测能力。例如,监控每个DPU或SmartNIC的状态、跟踪直连链路的健康状况、分析端点间的通信模式等。这些工具需要能够处理更大规模、更高频率的监控数据,并提供更智能的分析和异常检测能力。
数字孪生技术在这一领域将变得更加重要。通过建立网络的数字孪生模型,运维人员可以实时监控网络状态,模拟不同场景下的网络行为,预测潜在问题,并优化网络配置。这种技术已经在传统网络中有所应用,但在更复杂、更动态的无交换机架构中,其价值将更加凸显。
在工厂比喻中,这就像是从关注物流系统的运行状态转变为关注每个工作站和传送带的工作状态。运维人员不再需要监控中央物流系统的运行情况,而是需要确保每个工作站的调度系统正常运行,每条传送带都处于健康状态,整个生产网络高效协同。
这种范式转变将要求网络运维人员掌握新的技能和工具,更深入地理解计算和网络的融合,以及如何在这种新型架构中保障系统的可靠性、安全性和性能。
为什么“无交换机”短期仍难实现?
1. 大规模跨芯片通信仍需交换系统
尽管无交换机网络在理论上具有诸多优势,但在实际应用中,大规模跨芯片通信仍然离不开交换系统的支持。当前的晶圆级网络和封装级网络虽然在局部范围内实现了高效互联,但它们难以大范围伸展,主要受限于封装密度和物理距离。
以Cerebras的WSE为例,虽然在单个晶圆内实现了无交换互联,但当需要多个WSE协同工作时,仍然需要外部网络连接。同样,NVIDIA的NVLink/NVSwitch虽然在单个DGX系统内实现了高效互联,但跨DGX系统的通信仍依赖InfiniBand或以太网等传统网络技术。
这种局限性源于物理学基本原理的约束。随着距离的增加,直接互联的成本和复杂性呈指数级增长。在当前技术条件下,跨机架、跨数据中心的通信仍然需要传统交换结构的支持。
在我们的工厂比喻中,这就像是工作站之间的直接传送带只适用于近距离传输。当需要跨越较大距离或连接大量工作站时,仍然需要中央物流系统的支持。完全取消中央物流系统,用直接传送带连接所有工作站,在物理上是不可行的,成本也会过高。
此外,随着AI模型规模的不断增长,训练所需的GPU数量也在增加。当GPU数量达到数万甚至数十万时,完全依靠直接互联已经不再现实。在这种超大规模场景下,分层次的网络架构仍然是必要的,只是每一层的设计理念和技术实现可能会发生变化。
2. 交换芯片仍是“调度”、“隔离”、“可视性”的基础设施
交换芯片在网络中扮演的角色远不止简单的数据转发。它们还承担着流量调度、网络隔离和可视性保障等重要功能,这些功能在短期内难以完全由端点设备替代。
在流量调度方面,交换芯片通过复杂的队列管理和拥塞控制算法,确保网络资源的公平分配和高效利用。虽然DPU等设备具备一定的网络处理能力,但它们尚不足以独立承担整个网络的调度职能,特别是在大规模、多租户的环境中。
网络隔离是多租户云环境中的关键需求。交换芯片通过VLAN、ACL等技术,实现了不同租户之间的网络隔离,保障了数据安全和性能隔离。这些功能如果完全下放到端点设备,将大大增加端点的复杂性和安全风险。
可视性是网络运维的基础。传统交换机提供了丰富的监控和统计功能,帮助运维人员了解网络状态、排查问题。如果没有这些中心化的观测点,网络问题的定位和解决将变得更加困难。
交换芯片就像是物流中心的调度系统,不仅负责物料的传输,还负责协调不同生产线之间的物料分配,确保生产安全,监控整个物流系统的运行状态。如果取消这个中心调度系统,仅依靠工作站之间的直接协商,将难以保证整个工厂的高效、安全运行,特别是在大规模、多产品线的复杂环境中。
3. 现有生态深度绑定以太网/IP协议
技术演进不仅受物理限制,还受生态系统的约束。当前的软件系统、云平台和应用程序都深度绑定了以太网/IP协议栈,这种绑定构成了无交换机网络普及的另一个重要障碍。
以太网和IP协议经过数十年的发展,已经形成了完善的标准体系和庞大的生态系统。从网络设备到操作系统,从应用程序到管理工具,都是基于这些协议设计的。任何试图替代这些协议的新技术,都将面临巨大的生态迁移成本。
云平台和虚拟化技术更是将交换架构作为基础的“组织框架”。虚拟网络、软件定义网络(SDN)、网络功能虚拟化(NFV)等技术,都是在传统交换架构的基础上构建的。这些技术已经深度整合到现代IT基础设施中,短期内难以完全替代。
这就像是整个工业体系都已经适应了中央物流+分支配送的模式。从工厂布局到生产流程,从管理系统到员工培训,都是围绕这种模式设计的。即使有更先进的物流方式,也需要漫长的过渡期才能完全替代现有模式。
此外,网络安全、合规性和互操作性等考量也使得企业和云服务提供商难以快速采用革命性的网络架构。在关键业务系统中,稳定性和可靠性往往比性能更重要,这也是传统网络架构在企业环境中持续存在的重要原因。
综上所述,虽然无交换机网络在特定场景下展现出了巨大潜力,但受限于物理约束、功能需求和生态系统惯性,它在短期内难以完全替代传统交换架构。更可能的情况是,两种架构将在相当长的时间内共存,各自在适合的场景中发挥作用,并在技术演进中相互借鉴、融合。
交换机不会“消失”,但角色正被重塑
通过对AI网络架构演进趋势的全面分析,我们可以得出一个相对平衡的结论:交换机不会完全“消失”,但其角色正在被重塑。
传统意义上的交换机作为网络的中心节点,承担着数据转发、路由决策、流量控制等核心功能。而在AI驱动的新型网络架构中,这些功能正在被重新分配和重新定义。一部分功能下沉到了计算芯片或DPU,一部分功能被集成到了新型互连技术中,还有一部分功能被提升到了软件定义的控制平面。
这种变化可以概括为从“中心控制”向“边缘协同”的转变。在传统网络中,交换机是控制中心,决定数据的流向和处理方式。而在新型网络中,控制逻辑更多地分布在网络边缘,各个节点通过协同合作完成网络功能。
同时,交换机的角色也在从“数据路径”向“控制中枢”转变。在传统网络中,交换机主要负责数据包的转发和处理。而在新型网络中,交换机更多地承担网络策略执行、资源调度、安全保障等控制功能,而数据传输则更多地通过直接互联或专用通道完成。
因此,真正的“无交换机”时代,也许不是“没有交换”,而是“交换无处不在”。交换功能不再集中在特定的物理设备上,而是分布在网络的各个部分,融入到计算和存储系统中,形成一个更加融合、更加智能的基础设施。
评论