新闻中心

EEPW首页 > 网络与存储 > 编辑观点 > 光互连光交换CPO是本土超节点集群“以量补质”的破局机遇

光互连光交换CPO是本土超节点集群“以量补质”的破局机遇

—— 曦智“光跃LightSphere X”与合作伙伴捧得WAIC2025创新奖
作者:迎九(EEPW) 时间:2025-08-06 来源:EEPW 收藏

不久前,“2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC2025)”在上海举行。期间评出了最高奖——SAIL奖(卓越人工智能引领者奖),有5个项目从240个项目中脱颖而出。其中唯一一个包含芯片创新的项目是由曦智科技联合壁仞科技、中兴通讯、上海仪电的“分布式OCS全光互连芯片及超节点应用创新方案”,作为本年度最具代表性的原始创新项目,成为SAIL四大维度(Superior,Application, Innovation, Leading)中“I”的代表。

这个奖项的关键一环是曦智的LightSphere X分布式OCS(光交换)全光互连芯片及超节点解决方案。那么,它是如何助力本土GPU实现超节点算力跃升的?为此,曦智创始人兼首席执行官沈亦晨博士等领导接受了电子产品世界EEPW的访问。

1   实现从“电互连”向“光互连”的跃迁

随着生成式人工智能的发展,算力需求不断升级。不仅是我国,在世界范围内都看到需要越来越大的算力集群,使人们有能力训练和推理更大的模型。

就像过去一百多年来在交通网络上的技术革新和突破,使人们的出行效率有了巨大的飞跃。在计算互连网络上是否也可以有类似的互连技术突破,以应对近几年出现的算力需求激增?答案是从电互连上升到光互连。

曦智就是致力于光互连解决方案的公司,例如把GPU/xPU/机柜的铜互联、LPO/NPO升级为CPO(如图1);另外,从“0到1”地提出光交换方案,以获得更大的交换通道数、更低功耗、更大集成度,以及增加灵活调度能力,助力本土GPU在目前工艺节点受限的情况下,实现“以量代质”的超节点集群。

1754472498776901.png

图1

曦智等合作伙伴此次获奖的另一个重要原因是推出时间快。因为尽管此次WAIC上有很多超节点机柜在展出,但还没有一个机柜已是批量部署的。而曦智与合作伙伴的解决方案早在2024年就有批量部署(注:2024年6月已经在上海仪电落地数千卡的全光直联超节点,如图2)。在本届大会上,曦智又联合壁仞科技、中兴通讯又首次示范应用LightSphere X,也即将于上海仪电国产超节点算力集群落地。

1754472520661096.png

图2

2   超节点成为超级热点

超节点(SuperPod)可谓本届WAIC的热点之一,而去年很多客户还对此很陌生,但今年对于这个趋势判断已经没有任何疑问。近期在积极布局超节点的国内厂商主要包括AI芯片厂商和服务器厂商。  

所谓“超节点”是英伟达最早提出的概念,用于描述一种纵向扩展(Scale-Up)的GPU集群形态。英伟达也是较早布局超节点的代表厂商,去年发布了NVL72超节点系统。英伟达有一种特有的互连方式NVlink及NVSwitch,与传统通讯和网络不同,其带宽/密度极高,传输延迟极低。例如,NVL72把72张英伟达GB200 GPU通过NVlink的方式连接在一起,形成72卡超节点。相比于传统,例如把一模一样的芯片和卡组成传统单机8卡服务器,再把单机8卡服务器通过传统网络互连的方式9台连在一起。性能对比如图3所示,尽管二者的算力是一样的——都是72颗GB200芯片,唯一的不同点在于它们的连接方式不同,但是当模型做得越来越大及客户对响应度的要求越来越高时,NVL72超节点会显著好于传统网络互连方案。当TPS/用户超过200时,会看到一模一样的算力,但是超节点的吞吐量可以比非超节点提升3倍以上。

1754472544916887.png

图3

3   实现超节点的两条路径

由于地缘影响,现在英伟达超节点体系在国内是没有商用化的。国内客户包括云大厂,现在能获得的最好官方产品是英伟达H200,是单机8卡系统。

国内客户如果想实现超节点,目前主要有两条路径可选。

3.1 跟随英伟达,采用单机柜,目前是铜互连

这里带来另外一个问题:NVL72里的芯片是GB200。GB200用的是最先进的工艺(台积电4nm工艺)。图4是GB200相比于英伟达的A100(台积电7nm工艺)。A100与现在典型的国产GPU 7nm算力比较接近。

1754472590562143.png

图4

B200比A100的单芯片计算能力高5~10倍,因此72张NVL72的GB200约等于500张国产GPU的计算能力,相当于1个NVL72超节点需要500个国产GPU来匹配计算能力。

这就带来一个问题:现在国内绝大部分数据中心用的还是非超节点方案,例如传统的单机8卡+RoCE网络。

我们当然可以选择一条完全跟随或复制英伟达的道路,继续把更多GPU塞到机柜里,GPU间通过短距离铜导线连接起来去做超节点。这件事情我们也一定要去做。但是有几个痛点:①把500个GPU塞到一个机柜里,无论是从功耗、散热还是体积等都是很难实现的,因为高带宽数据在传统的铜导线里传输,通常只能传一两米的距离,在这个距离内放下如此多的GPU很困难。②英伟达的GPU制程还在进步,例如下一代的Rubin(注:计划于2026年初开始量产)用的是3nm(台积电第三代3nm制程工艺(N3P)),再往后将是2nm工艺,……因此在目前国产制程的水平下,需要塞到一个机柜内的GPU量将越来越大,将越来越难做。所以就必须开拓第二路径,必须具备跨机柜的带宽互连能力,才有可能追赶上甚至超越英伟达GPU的密度。

3.2 实现跨机柜,用硅光互连

跨机柜往往会超过1米的距离,因此只有一种方案——用光进行互连,而不能继续沿用原来的铜导线方案。

所以未来国内超节点方案,首先每个机柜内会尽量放更多算力,然后会有多个机柜通过光互连的方式连接成一个超节点。这需要GPU直接出光,然后做跨机柜的长距离互连。

4   光互连——大量带宽连大量芯片,创造同等算力

如果把光互连与传统的电互连比较,光互连像轨道交通,电互连更像是公路交通。轨道交通的优势是可以传得更远,速度更快,并且有自己独特的网络体系。

实际上光互连并不陌生,已出现几十年,光纤通讯也已广泛应用在长距离通讯里。光互连技术本身也有非常大的迭代空间。网络互连的光模块就像轨道交通里的绿皮车。光模块有两个特点,①光电转换芯片往往离GPU较远,现在光模块都存在于数据中心交换机里,与GPU之间至少有1米以上的铜导线距离,②传输延迟较大。

因此需要进一步提升单通道互连带宽,还要提升通道的密度和数量,这就催生出新一代的光电融合技术,目前已有三个发展阶段,如图1。

①近封装/板载光学(NPO/OBO)技术,把光电转换芯片从交换机直接放到GPU板卡上,这样距离就从1米缩短到10厘米。互连密度也能提高2~3倍。另外可以把DSP芯片去掉,这样能大大减少GPU与GPU之间的通讯延迟。近封装光学是目前已经批量落地的一套互连方案,也是目前唯一通过NPO方式连接的GPU超节点。

②下一阶段是共封装光学(CPO),最近炒得比较火。CPO可进一步把光电芯片到GPU的距离从10厘米级别缩短到1毫米,原理是直接把光芯片和电芯片放在一个封装里,以进一步增加互连带宽。因为只需要把电信号传1毫米就行了,这进一步提升了3倍左右的带宽,同时减少了延迟。

值得一提的是,共封装(CPO)光学在全球范围内第一个落地场景是交换机的共封装,博通产品以及英伟达在今年GTC(GPU技术大会,2025年3月)上都发布了共封装交换机,在国内,曦智也与国内头部交换芯片厂商在合作项目。

CPO的第二步是用于GPU互连。在本届WAIC上已经展出GPU共封装的Demo。在全球范围内,英伟达也在非常积极地研究该技术,落地只是时间问题,而且会非常快。国内企业也在研发,而且光电共封装可能在国内意义会更大,因为国内制程是受限的。在此次WAIC大会上,曦智展示了一款与国内GPU公司,应该也是全球第一次实现这种方案的Demo(演示),即把一个GPU芯片通过短距离(只能传1毫米)Serdes,直接以共封装的方式把信号在GPU上转换为光信号,并直接连出来(图5))。

1754472621635182.png

图5 曦智的国内首款xPU-CPO光电共封装原型系统

③未来,光互连方式应该是光芯片和电芯片在同一颗芯片上——3D共封装方案。现在美国已有公司在做此类事,预计5年之内就会出现。3D CPO把光芯片和电芯片堆叠在一起,直接进行数据传输。上层会有很多电芯片,下面是较大的硅光芯片。电芯片所有信号直接垂直传导到硅光芯片上。随着硅光芯片上的Routing,通过周围连接的接口往外进行连接,这会最大化地提升互连带宽。最终通过这种方式,可以比现有的互连方式再提高1-2个数量级的互连带宽(如图6)。

1754472646455886.png

图6

曦智在此的计划是:①希望通过近封装、共封装,以及最终3D共封装光电融合的方式,大大增加单芯片带宽,目标把单芯片带宽从现在的2TB量级,最终做到100T量级。②通过光来代替电去做互连,把超节点内的芯片数量从8颗提高到500颗。预计二者叠加起来,在1个超节点内的总带宽可以比今天单机8卡的超节点提高到3个数量级。未来如果能用3D共封装方案,可以在3个数量级上再上一个数量级,达到4个数量级超节点总带宽的提升,这样才能应对未来几年需要用大数量GPU弥补工艺上的不足问题。

5   光交换——dOCS提升灵活性和降低冗余率

当连接的GPU节点数量越来越多以后,要面对一个新的问题:在不同光互连光纤中的调度能力。因为不可能上千张GPU都是一种方式连接,需要有调度复杂网络的能力。

5.1 电交换的三个痛点如下。

①电交换像一辆辆小汽车,每个信号都可以在电交换机上选择方向,就像每辆小汽车的司机都可以去选择,因此整个交换容量或交换速率主要取决于电交换芯片本身的运算能力,相当于红绿灯的能力,这在大型的超节点网络上容易造成堵塞。

②不同品牌的小汽车就像国内不同的GPU、采用不同的互连协议,无法把多个厂商的GPU通过同一种交换芯片互连,所以每种 GPU都要定制交换芯片,以覆盖互连协议。

③先进的电交换芯片要用先进的工艺节点。例如博通最先进的电交换芯片与英伟达GPU一样的工艺节点推进。因此,国产电交换芯片的交换能力也受到了本土工艺节点的限制。

5.2 曦智dOCS的优势

为此,曦智开发了dOCS(分布式光交换)系统,原理类似于取消了工厂中的中央物流中心,而是在每个车间或工作站附近设置小型的物流中转站,使物料传输路径更短、更直接(如图7)。

1754472689463815.png

图7

光交换芯片可以通过中央信号控制调配所有光纤,让光信号在波导之间进行信号的切换。基于dOCS(分布式光交换)超节点的性能优势如下。

●   在单位互连成本上,因为不需要电交换机,直接通过光模块的方式,可以做到NVL72成本的31%。

●   GPU冗余率比NVL72和谷歌TPU v4低一个数量级。当把几百个GPU卡连成一个超节点以后会碰到一个问题:如果一个GPU坏了,在逻辑上与它一起形成的整个超节点都会需要下线。随着超节点越来越大,超节点里有GPU会坏的概率成倍增长。所以冗余是必须要解决的问题。因此,能否在任何一个GPU坏的时候,能迅速把一个好的冗余GPU协调到超节点内,让它能够继续运行?传统的电插拔方案,每次坏了得重新插光纤。现在有了光交换的能力后,所有坏了的GPU可以在毫秒时间内直接把一个好的GPU给切换上去,可以大大减少由于冗余带来的成本增加。

●   每个GPU使用效率提高3.37倍。这与NVL72相比NVL8带来的提升效率是类似的。

除此之外,它不受协议限制,同时所有硅光芯片都可以在国内自主生产,不受任何先进制程的限制。

6   目标及规划

曦智的目标是在年内落地万卡集群,去年6月已经在上海仪电落地数千卡的全光直联超节点。今年6月,曦智与沐曦在上海仪电落地“光互连电交换”超节点体系。现在曦智正与上海仪电落地数千卡光互连/光交换连接体系。图2是曦智的技术路径。

7   为何中国GPU直接出光的时间会更早

在全球范围之内,我国的硅光产业与国外基本处于同一起跑线,甚至有一定的领先。例如现在GPU直接出光在美国还没有批量落地的,只有在中国有。

原因之一是我国没有其他选择(没有更好的制程选择),所以国内生态更愿意尝试新技术。另外,美国GPU公司一家独大,并且这家在已经占据全球市场份额超过90%的情况下,对于突破性互连技术,可能并没有特别强的动力去改变。但是中国不同,中国GPU厂商有小几十家,相互都在寻找差异化,怎样在同样的制程下寻找突破?新一代的光互连光交换技术使门槛降低了很多。如果有几家选择光互连光交换方案,就会形成几万卡节点的落地。

8   dOCS光交换的拓扑结构是什么样的?

8.1 OCS与电交换机的区别

通常的OCS叫光路交换、光路切换,外形像盒子,与电交换机从外形上看起来很像,即有很多口进,也有很多口出。电交换是一个电信号过去,有点像发信件,有个邮编,盒子会读邮编去哪儿。光交换像轨道切换,上面并没有邮编,因为光的交换机是无法感知里面传的东西是什么的,所以一定是源控制——发的人决定它去哪儿。有点像物流中转站,货物过去,例如这个要去郑州,它就装上郑州的车。

8.2 传统光交换(OCS)的不足如下。

①(分布式光交换)与传统的光交换相比,光交换(OCS)盒子为什么现在没有在数据中心大规模使用?弱点在于若把很多光纤连到上面,一旦出现问题,故障影响会很大,对于很多大型元数据中心是很大的问题。但是业界技术在持续研发解决这种技术。

②传统的盒子成本较贵。

8.3 dOCS的优势

分布式OCS(dOCS)在架构上做了创新,无需把交换功能做到一个大盒子里,而是做到模块里。尽管曦智的dOCS产品最终形态看起来像光模块,但只是把交换的功能放到模块里面。由于它是硅光固态产品,所以可靠性比盒子/模块好很多。

另外,成本大幅降低。因为dOCS本身也是光电转换,即在整个系统里节省了光模块。例如假如不是dOCS,而是GPU出来接一个交换机,这中间需要光缆,因为交换机信号出来后还要再接回去,所以如果是GPU出光的情况,中间要用4个光模块(每端2个,例如国内某友商的解决方案)。而dOCS只需2个模块,节约了成本。另外,系统应用方面可以省掉电交换。

所以这个产品是集技术、产品定义、应用场景联合的创新。可见曦智找到了一个非常好的切入点,体现了其在技术、产品及市场上的综合把控能力。

9   光电合封

在本土产业链方面,现在中国至少有3条硅光产线已经具备量产能力,并且在工艺节点上不落后于台积电。因为硅光产线并不特别依赖工艺,况且台积电的硅光产线是65nm,而国内头部几条硅光产线也能做到比65nm好的工艺。

封装能力方面,确实台积电比较有优势,基于其CoWoS(Chip on Wafer on Substrate,台积电开发的一种2.5D/3D封装技术等在光电融合封装上比较领先。对于国内厂商,一方面在硅光产线上正具备更好的封装能力;同时封装与生产本身并不一定要在一条产线上。

曦智也在推动国内头部封装厂商具备光电合封的能力。目前分成三步,Fab端做光芯片生产,在OSAT(外包半导体组装和测试服务)端做光电的合封,曦智有一条产线在南京,做纯光的光纤耦合。

 目前OSAT封装的良率是很高的,95%以上没有问题,其中会有一些新的技术,例如做到可插拔。目前较大的挑战是:产业链比较长。例如一家GPU公司找一家OSAT或光模块公司帮助把CPO做出来,这是很难的。所以一定要有对整个产业链非常精通的公司帮助把控整个链条,然后协同设计,最后交付一个光电共封装产品。

10 CPO(共封装光学)会带来哪些行业的繁荣?

所有与光芯片相关的产业会更繁荣,因为共封装代表今后主流的电芯片,诸如交换芯片、GPU等都会配以数个硅光芯片,有点像现在的GPU边上都配了一圈HBM,以后GPU除了左右是HBM,上下可能就是硅光芯片(共封装)。因此整个硅光生态产业链都会受益,包括晶圆厂、光的封装厂、激光光源、激光芯片公司、光纤,都会大大起量,因为现在计算互连之间的带宽需求远远超过现在网络互连带宽。


关键词:

评论


相关推荐

技术专区

关闭