新闻中心

EEPW首页 > EDA/PCB > 市场分析 > Chiplet 技术取得进展

Chiplet 技术取得进展

作者:semiengineering 时间:2024-11-06 来源:半导体产业纵横 收藏

在互联技术、复杂分区技术以及行业经验的推动下,将 SoC 分解成各个组件,并将这些组件和其他组件组装成某种类型的异构组件已初具雏形。

本文引用地址:https://www.eepw.com.cn/article/202411/464358.htm

虽然即插即用的愿景依然不变,但实现这一目标远比最初想象的要复杂得多。它会因应用和工作负载的不同而有很大差异,进而会影响时序、延迟和成本。此外,它还会因封装类型、是否包含人工智能、调度和优先级排序所需软件的数量以及所使用的互联类型而有所不同。

Arm 系统架构师兼研究员罗布·迪蒙德表示,互联技术是粘合剂。它们包括片上网络,即位于 上的所有其他互联,以及 UCIe 芯片间连接,后者负责芯片间数据传输。互联技术还与其他高速接口协同工作,将数据从一个边界传输到另一个边界。

Cadence 高级产品营销集团总监阿里夫·汗说:「芯片组互连的根本挑战在于了解如何进行分解。你正在分割你的计算和数据流问题。你的架构是怎样的?你是如何划分的?你有芯片组内的数据流,还有跨芯片组的数据流。这取决于数据的去向和背景。例如,你要解决的问题是什么?如果是 GPU 类型的应用,那么单个 GPU 将无法容纳如此庞大的语言模型。你需要的是一个由数百万个 GPU 组成的人工智能工厂。然后,你会看到不同的一致性模型。事实上,即使是标准协议也无法满足要求。」

目前,这些互联通常是导线(尽管未来在封装之间甚至封装内部可能会有光互联,或是二者的某种组合)。但并不是所有的导线都有相同的表现。它们可以有不同的直径,以不同的密度排列,具有不同的绝缘层,甚至使用不同的材料。

Blue Cheetah 首席执行官兼联合创始人埃拉德·阿隆表示:「你能获得的导线数量以及这些导线的特性都大不相同。「这就是促使你必须以不同方式做事的原因。另一方面,人们通常希望隔离芯片组边界的时序接口,这从根本上说并不是物理学驱动的,而更多是实际工程驱动的。当 采用 2.5D 或 3D 封装时,会有一些操作空间,但通常的设计决定是将这些时序接口相互隔离。这主要是因为芯片在物理上被分隔在不同的芯片中。我不想做这种多重跨芯片时序闭合的工作。这并不是说不能做,只是出于现实的原因人们不愿意这么做。这也是芯片组互连与芯片上互连不同的地方。片上互连是在单个时钟域内进行的,可以由更「标准」的「放置-路由」类型的流程驱动。但是,由于导线数量较少,因此需要更快地运行这些导线。隔离式定时接口正是模拟人员实现这一目标的关键所在。显然,它需要尽可能低的面积和功耗。」

由于 互联需要跨芯片传输数据,因此这些物理接口通常速度非常快但相对较窄。然而,与 SoC 互联不同,Chiplet 互联通常是像通信协议一样进行分组化的,而不太像片上总线。

Arteris 产品经理阿什利·史蒂文斯解释道:「Chiplet 互联通常允许数据以分组化的格式通过芯片间链路在非常宽的接口上发送,数据可以序列化并通过链路发送。芯片间互联需要支持各种旁带信号,这在 SoC 中通常通过点对点信号(如中断和电源管理)来处理。这些也需要通过与普通内存和外设事务相同的链路以分组化的格式从芯片传输到芯片,因此不应被忽略。」

这些互联还需要与应用相匹配。「Chiplet 需要一种在关键参数上表现出色的高效芯片间(D2D)互联,」Alphawave Semi 产品营销和管理副总裁莱蒂齐亚·朱利亚诺表示。「我们需要为芯片间互联的 Chiplet 应用进行定制,以优化给定封装系统中该接口的总拥有成本。面积效率以带宽海岸线密度来衡量,它能使每毫米岸线上的数据达到最高的 Tb/s。功率即能效,并且每比特焦耳需要尽可能低。当我们在 Chiplet 中使用 D2D 互联时,会造成 I/O 电路的重复。物理层和数字逻辑都会增加,它们需要减少对总体功耗预算的影响,并符合总体总拥有成本。」

延迟是一个关键的性能指标,发射器(TX)加接收器(RX)的传输时间需要最小化。「D2D 互联的设计必须在电路复杂性和 PPA(性能、功耗和面积)之间取得微妙的平衡,做到同类最佳,」朱利亚诺说。「这可以确保我们不会过度增大电路尺寸而忽略应用空间。例如,具有单端架构和良好电压调节平衡的简单接口有助于提高电源效率。同时,模拟 TX 和 RX 中的紧凑电路需要对失配和噪声进行仔细研究。」

要最大限度地发挥异构集成的优势,就必须深入了解终端应用和工作负载,以及如何最好地为特定领域设计解决方案。「我们不能与应用空间脱节,也不能将总体拥有成本降至最低,因此 D2D 架构需要针对不同类型的封装和凸点间距进行设计。」朱利亚诺指出:「在设计系统时,我们需要考虑所有的电路损伤,以实现现实可行的实施。我们正在从芯片转向封装。在封装中的 Chiplet 系统中,将我们的 SoC 裸片自然分解的方式是将我们的 SoC 网络传输到封装上的芯片上,因此我们正在向标称片上传输层添加物理层传输。」

Chiplet 中的数据移动

有多种竞争性的协议可用于数据移动。AMBA CHI、UCIe 和 BoW 是最为人所知的。哪一种或哪几种组合最终胜出尚待观察。但它们基本上都执行相同的功能,即在 Chiplet 之间快速移动数据。

「AMBA CHI 是分组化的、广泛使用的且开放授权的,它是 AMBA CHI C2C 的基础,使其能够使用合适的芯粒物理和链路层在芯粒之间实现连接,」Arm 公司的迪蒙德介绍道。「对于将主板上的组件集成到一个封装中,最好在新的针对芯粒优化的物理层上使用已有的互联标准。对于将 SoC 分解为多个芯粒来说,同样合理的做法是使用已有的片上互连。」

Arm 认为,Chiplet 互联将从现有的板级或片上互联发展而来。但是,在 Chiplet 架构中,有更多且不同的层需要考虑。

「就物理层而言,芯片之间的互联可能会支持更少的物理连接,运行距离更长,」迪蒙德解释说。「可能需要串行解串器(SerDes)。在 AMBA CHI C2C 的情况下,该协议是分组化的,以支持在物理层之上运行。协议层将需要一个架构规范,以提供所需的长期稳定性,支持随着时间的推移重复使用,并随着生态系统的出现,支持价值链中不同参与者之间的潜在重复使用。」

在很大程度上,Chiplet 到 Chiplet 的通信是一个分区问题,而在汽车设计中,这个问题尤其具有挑战性。

「举个例子——我可以从 X 公司获得一个带有完美 CPU 复合体的芯粒,但它没有 GPU,」西门子数字化工业软件公司混合与虚拟系统部门的副总裁戴维·弗里茨说道。「我正在尝试为车载信息娱乐系统(IVI)做些什么,所以我需要一个 GPU 来进行渲染。有些公司会说:要不我把我们的 GPU 拿出来,单独放在一个芯粒里,然后把这个芯粒称为一个『液滴』怎么样?但这只是一个无法独立存在的子系统模块。人们会创造这些『液滴』,然后他们会说,:你拿着我们的『液滴』去找其他公司,他们会围绕它添加他们需要的东西。所以,实际上我们又回到了出售硬宏(hard macros)的老路上。『我这里有 GPU,但我的内存却在另一个芯粒上?这行不通,因为我没有 GPU 所需的高带宽,无法支持高分辨率、多显示屏。』所以,如果你没有工具来探索这个领域的复杂性,并推导出那些不直观或不明显的更深层次、更硬性的要求,那么你最终只会做出错误的决策,而无法拿出一款有竞争力的产品。」

在异构系统中,分区不仅仅关乎硬件。软件也需要在 Chiplet 之间兼容。

「如果你考虑推理,推理通常使用较小的数据集并据此做出决策,」Eliyan 公司战略营销副总裁凯文·唐纳利表示。「处理元素可能全部包含在一个芯片内,而你需要进行的互联是与外部世界和内存之间的。这决定了你拥有什么样的互联,以及你在这些互联上需要什么样的带宽。这将决定类似推理功能的芯片集的划分方式。如果是训练,并且像英伟达那样处理海量数据集,他们关注的是如何将大量的大型解聚芯片无缝地整合起来,使它们看起来像是更大、更单片的芯片。在这种情况下,他们需要尽可能紧密地互连 GPU 核心,并在芯粒之间获得尽可能多的带宽。这种片外互连问题正是推动他们做出划分决策的原因,也是他们将其旋转 90 度(与其他人之前的做法相比)的原因,其他人之前的做法是试图让两个巨大的单片芯片看起来像是一个更大、更巨大的单片芯片。然后,芯片外部的连接通向 I/O 世界和其他内存。这就是片上互连在他们划分中所起的作用。在软件层面,他们能够使两个解耦的处理器看起来像一个巨大的处理器,根据他们公布的信息与之前的可用信息相比,这让他们获得了出色的性能基准。」

这也可以被称为横截面带宽和能耗。「当你将事物从彼此身上分离,从一个单片芯片分离成两个需要重新连接的异质部分(或者就此而言,同质部分)时,这是你需要关注的两件事,」Eliyan 公司的首席战略与业务官帕特里克·索赫伊利指出。「你正在寻找可以承受更多功耗的区域,因为现在你可以在芯片外部将它们连接起来。在芯片内部进行连接总是更高效的,但如果没有空间就别无选择。所以,这是由一个决策决定的。另一个决策是,一个芯片需要与另一个芯片以多快的速度进行通信,即横截面带宽需要是多少,以及是否能够承受将它们彼此远离放置,而不是放在一个单片芯片中。这两点是软件划分,以及确保整个系统将系统级封装(SIP)视为一个整体——这始终是其中的关键部分——与 Chiplet 策略无关,只是确保所有部分都能作为一个子系统协同工作。」

Chiplet 给互连实现带来了什么

Chiplet 系统的出现带来了创建可用于生产实现的新挑战。「这需要使用一种新的方法来测试 D2D 接口在不断提高的数据速率下的表现,并允许对良好的芯片进行测试和筛选,」Alphawave 的朱利亚诺表示。「我们如何在晶圆或封装上测试 D2D 互连的物理层?HBM 学习是否适用于此,或者我们需要采用不同的方法?我们现在讨论的是以更高的 32Gbps 数据速率进行连接,并且每个引脚的数据传输速率达到 64Gbps,这将连接越来越多的 Chiplet。通常,这是在先进的凸块间距中实现的,而这种间距在晶圆级别上是不太可能的。在我们的物理层(PHY)内部设计测试级结构至关重要,这样可以深入了解硅的健康状况并随时间观察关键时序参数的可观测性。」

Alphawave 已经实施了先进的测试和调试方法,允许其工程团队使用内部回环和寄存器访问来测试链路。该公司还在与外包半导体组装和测试公司合作,实施结构测试,以确保 D2D 结构的全面测试覆盖。

另一个新问题源于将来自不同供应商且需要互操作的 D2D 互连和 Chiplet 进行集成。「如今,我们部署的大多数系统都来自单一供应商,但我们正在与生态系统合作伙伴和客户合作,为多供应商互操作性铺平道路。我们已经创建了测试载体和发布版 Chiplet,这些可以与其他方一起使用,以进行清晰的电气互操作性测试和协议测试,」朱利亚诺指出。

系统发现也是 Chiplet 中需要标准化的另一个领域,Arteris 的史蒂文斯说道。「要创建一个 Chiplet 生态系统,它们需要能够『发现』外部存在什么,并且如果需要支持真正的芯粒混合与匹配,它们需要能够对齐以形成一个系统。今天,Chiplet 是作为一个系统进行设计和验证的,但这缺乏协同使用的灵活性。验证知识产权(IP)对于 Chiplet 也至关重要。为了实现互操作性,必须有行业内信赖的『标准』验证 IP。这使 Chiplet 设计可以针对验证 IP 进行验证,而无需针对其他 Chiplet 进行验证。」

从互连的角度来看,还必须考虑整体内存映射。「内存映射是特定地址访问如何映射到系统中的内存控制器,」史蒂文斯说道。「在 Chiplet 系统中,内存访问可以跨越 Chiplet。这种映射会对性能产生影响。细粒度的映射会将访问均匀地分散到各个 Chiplet 上,但可能会由于远程 Chiplet 的较长延迟而导致性能问题。粗粒度的映射可能更好,但访问可能不会分散得那么均匀,因此存在一个棘手的权衡。系统架构师应该对此进行建模,但另一种方法是使其在引导时配置,以便在硅调试之后可以进行试验。」

Chiplet 架构的另一个重要考量是,并非所有 Chiplet 划分和架构都适用 D2D 互连。「了解 KPI 以便为 D2D 链路和 Chiplet 分区选择正确的配置,这一点至关重要,」朱利亚诺指出。「我们凭借自身在 Chiplet 定制硅片和 D2D 互连领域的领先地位,指导客户正确划分系统,并在实现 TCO 和上市时间之间找到最佳平衡点。一个重要的例子是封装技术,以及特定配置所需的 D2D 配置。选择过程需要涉及芯粒互连的所有层级。然后,将电气物理层(PHY)和封装类型转移到互连协议和特定于域架构的芯粒划分上。」

Alphawave 的多标准 I/OChiplet。来源:Alphawave Semi

在更深入地了解 Chiplet 互连后,一个关键问题浮现:商业 Chiplet 市场何时能成形。虽然英特尔、AMD、英伟达和苹果等公司已经在使用 Chiplet,但这些 Chiplet 是专为它们自己的设备设计的。要实现基本即插即用的商业 Chiplet,还有很长的路要走。

「我们将看到的下一个阶段是,当前的主要参与者围绕其知识产权开放生态系统,允许配套 Chiplet 的出现,」Synopsys 技术产品管理高级总监蒂姆·科格尔表示。「这将需要一套完整的架构和协作工具方法。特别是在汽车行业,这是一个非常重要的趋势。在欧洲,有 imec 汽车 Chiplet 计划(ACP)。日本则有先进汽车系统芯片研究(ASRA)联盟。有负责架构协作和物理方面的工作小组。我们如何在信号层面实现协同工作?我们如何在宏观架构层面实现协同工作,以便将各部分整合在一起?特别是在汽车行业,这一趋势尤为强劲,因为他们清楚地看到了使用 Chiplet 概念实现可扩展架构的好处。他们希望从低端汽车到中端再到高端,只需简单地说『这是一个,这是两个,这是四个 Chiplet』就能实现。他们看到了巨大的经济规模,并计划通过 Chiplet 路径来实现这一点。」

然而,要实现这一目标,还有很多工作要做。作为一个行业,我们仍在了解 Chiplet 及其标准,所有这些标准都涉及不同的领域,Keysight 的信号完整性应用科学家兼高速数字应用产品经理表示。「行业面临的一大挑战是,要确保所有这些标准都能协同工作,因为迟早它们都需要相互连接并协同发挥作用。」



关键词: Chiplet

评论


技术专区

关闭