为何迈向2纳米制程?
核心要点:
数字逻辑的演进仍能带来显著收益,更低功耗尤为突出。
多芯片封装将成为主流方案,且大部分电路不会采用 2 纳米及以下制程。
这类系统本质上更具灵活性,但优化功耗、性能、面积 / 成本(PPA/C)所需权衡的数量与复杂度正不断提升。
2 纳米及更先进制程的推出,需要全新的功耗与散热管理方案,同时也将为设计带来更高灵活性,为提升性能和优化成本提供更多选择。功耗、性能、面积 / 成本仍是芯片制造商关注的核心指标,但各指标的权重分配与实现方式差异显著。过去,芯片市场分为两类:智能手机等移动设备使用的超低功耗芯片,以及面向服务器和高性能台式工作站的芯片。而随着人工智能渗透到几乎所有电子设备,应用场景正变得更加细分和精准。不同芯片制造商或系统供应商针对不同数据类型或工作负载的最佳处理单元可能截然不同;此外,受电网限制、关键元器件或材料供应不稳定且难以预测,以及地缘政治法规等因素影响,在某一地区适用的方案在另一地区可能无法推行。
将芯片拆解为多芯片封装结构,可优先保障不同处理器和功能模块的优先级,同时在非关键元器件短缺时简化应急方案。无需将所有组件都集成到采用最先进制程、基于光刻版尺寸的系统级芯片(SoC)中,而是可根据实际需求为不同芯片选择合适的制程。
对于部分逻辑电路而言,缩小元件尺寸仍至关重要,但采用最先进制程的部分在整体设计中的占比正逐渐降低。另一方面,只要处理器与内存间的数据传输速度足以应对爆炸式增长的人工智能数据量,就能通过增加芯粒(chiplet)形式的晶体管来提升性能。
“具体到 2 纳米制程,这类复杂集成系统中可能仅有少数部分会采用这一最先进技术节点,” 泛林集团(Lam Research)企业副总裁大卫・弗里德(David Fried)表示,“最终核心是优化 —— 为系统的每个元件选择最优技术。过去,我们针对所有组件的单片集成优化功耗、性能、面积和成本;而先进封装技术则让我们能够针对各个子系统分别优化这些指标。其结果通常是通过异构集成将不同技术整合在一起,芯粒正是分层系统集成的自然演进。”
这是一种全新的演进思路。“如今,许多应用通过‘解集成’实现优化,” 弗里德说,“即将逻辑与内存分离、输入输出(I/O)与逻辑分离、内存控制器与内存分离。目前我们看到的很多产品都通过拆解或解集成优化,转向更复杂的先进封装流程,这正是它们优化 PPAC(功耗、性能、面积、成本)的方式。”
这对整个半导体供应链产生了广泛影响。“我们将提供更高的灵活性和定制化服务,”Rapidus 公司封装技术领域首席技术官(CTO)罗扎莉亚・贝卡(Rozalia Beica)表示,该公司已获得 IBM 的 2 纳米制程技术授权。“我们与客户合作的部分封装产品将包含 2 纳米芯片,同时也会集成其他非先进制程的技术。我们必然需要与行业内其他公司合作,因为我们不生产 4 纳米或 7 纳米芯粒,仅提供 2 纳米芯粒;将在可能的情况下与其他代工厂或外包半导体组装与测试公司(OSAT)合作,把 2 纳米及其他制程技术整合到封装产品中。”
这听起来似乎简单 —— 设计和制造芯粒比完整的系统级芯片更容易,但整合各个部件并非易事。
“存在一种混合设计理念,即可以混合搭配不同标准单元 —— 将高性能标准单元与低功耗标准单元,甚至高密度标准单元相结合,” 新思科技(Synopsys)工程副总裁阿比吉特・查克拉博蒂(Abhijeet Chakraborty)表示,“因此,可选择的标准单元类型更加丰富,电子设计自动化(EDA)工具必须审慎选择,以最大化收益。如果为了满足高性能计算(HPC)人工智能设计的严苛性能目标而全面使用高性能标准单元,就会在功耗及其他指标上付出代价,因此这种混合搭配至关重要。”
灵活选择与定制化指标
这仅仅是起点。“情况会更加复杂有趣,” 查克拉博蒂说,“你可能会遇到同构系统 —— 所有芯片均采用 2 纳米制程,且需要相互连接。这就涉及到先进封装、混合键合、键合间距等方面的挑战与机遇。如何连接这些芯片?芯片间互联技术取得了诸多进展,互联密度、间距以及信号完整性均有所提升。多芯片设计的另一大优势是可以灵活组合:例如将 28 纳米芯片与 2 纳米芯片搭配使用,这有助于缓解先进制程在成本、良率方面的挑战,降低技术应用门槛。”
至少在初期,这类新型多芯片封装产品将面向大型人工智能数据中心,以及高端智能手机和个人电脑市场。整合各个组件并权衡各项指标 —— 功耗、性能、面积 / 成本、上市时间、设计与验证周期、晶圆厂或封装厂生产时间 —— 需要大量的设计与验证工作,包括制作多个测试芯片,并根据技术的使用场景和方式进行微调。
“性能和功耗收益是真实存在的,但具有条件性,”proteanTecs 公司 CTO 伊芙琳・兰德曼(Evelyn Landman)表示,“节点升级不再默认带来线性收益,真正的价值在于系统能否安全运行在硅片的物理极限附近。这一点在大型人工智能平台中已十分明显:每瓦性能成为主要约束因素,而非原始频率。对于 2 纳米制程,其经济性完全取决于智能裕量管理 —— 裕量过大则投资失败,盲目缩减则可靠性受损。最终的赢家将是那些能够跨工作负载、贯穿产品生命周期,动态且持续地测量、理解并管理裕量的企业。”
这是一个成本高昂且工程密集的过程。但对于人工智能数据中心而言,通过多芯片封装集成更多晶体管,以更低功耗更快地处理数据,无疑是一套成功的方案。而对于高端手机和个人电脑,一款芯片设计可分摊到巨大的产量中 —— 因此,即使开发一款新芯片可能需要 1 亿美元甚至更高成本,也是可以接受的,尤其是当更快或更低功耗的逻辑电路、更高密度的内存和 / 或光子互联技术普及后,设计中的许多部分有望重复利用。
“总体而言,我们看到 2 纳米节点在功率密度方面呈稳步提升趋势,” 英特尔(Intel)逻辑技术开发副总裁兼总经理本・塞尔(Ben Sell)表示,“我们设计一项技术时,核心关注功耗、性能和面积 / 成本指标,但这并非仅关乎性能 —— 更多是每瓦性能以及面积缩减幅度。”
英特尔于 2026 年 1 月推出的 Panther Lake 采用 18 埃(18A,约相当于 2 纳米级)制程。“该产品采用中介层设计,上方集成多个芯粒,其中计算芯粒采用 18A 制程,” 塞尔介绍道,“我们明年还将推出其他采用传统封装的产品 —— 不一定是堆叠式,而是多芯片封装。目前我们正在推进后续路线图,包括 14A 制程。Panther Lake 是面向消费端的产品,但即便如此,其中的不同芯粒也有不同需求:计算模块注重性能,同时兼顾每瓦性能和功耗效率以保障续航;图形模块更侧重功耗降低及功耗 / 性能平衡;其他芯粒则属于传统芯片组应用,负责与计算系统的其他部分进行接口连接。而服务器产品对功耗的敏感度极高。”
不同节点和代工厂制程的性能提升幅度各异,但每个新节点都能同时实现 30% 性能提升和 30% 功耗降低的时代早已过去。
“从设计角度来看,客户从 3 纳米转向 2 纳米的预期是:平均性能提升 10% 至 15%,功耗降低 20% 至 30%,晶体管密度提升约 15%,” 新思科技的查克拉博蒂表示,“但能否实现这些目标仍面临挑战。更低功耗对于许多关注每瓦性能和更高晶体管密度的应用而言尤其具有吸引力。新思科技投入大量创新和资源,旨在最大化 2 纳米制程的潜力,但现实中存在的良率和制造问题仍不容忽视。”
与过去不同,先进制程芯片的良率不再仅由最终测试决定 —— 芯片还需组装到某种先进封装中,并在实际应用场景中长期符合规格要求。
“对于 2 纳米和 18A 制程,核心挑战不再仅仅是晶体管演进,”proteanTecs 的兰德曼表示,“而是整个硅片生命周期内的不确定性管理。随着架构转向纳米片(nanosheet)和新型供电方案,器件物理、制造、封装和实际工作负载等环节的容错空间大幅缩小。过去属于次要影响的因素 —— 如局部电压降、热梯度、老化和工作负载驱动的应力 —— 如今在局部持续放大。这一点在早期量产阶段已显现:变异不仅需要通过统计方法理解,还需考虑空间和动态因素。静态假设和最坏情况裕量已不再足够,因为最危险的工况并非固定不变,而是瞬态、依赖工作负载的,且往往在系统运行前难以察觉。行业正处于一个拐点:正确性必须通过持续管理保障,而非在设计签核时简单假设。”
无尽的权衡
要理解其复杂性,可从性能与散热的关系入手:人工智能服务器的利用率越高,对高性能逻辑电路的需求就越大(因为能节省功耗),但更高频率运行会产生更多热量,必须通过某种方式散热。若被动散热片不足以满足需求,就需要更耗能的主动散热方案。
与 3 纳米制程相比,2 纳米制程可在相同空间内容纳更多晶体管 [1],意味着更高的功率密度 —— 能够以相同功耗实现更快的处理速度。因此,对于特定工作负载,每个新节点都能节省功耗。但如果利用率过高,热量会升至临界点:要么需要更复杂的散热方案(更高功率、晶体管密度和热密度的芯片内部散热难度更大),要么不得不降频,这可能会使转向 2 纳米制程的初衷落空。
自 20 纳米节点之后(台积电和三星为 16/14 纳米),散热问题日益难以管理,导致一系列无休止的权衡。鳍式场效应晶体管(finFET)的推出虽降低了栅极泄漏,但更多晶体管的集成也增加了热密度。到 7 纳米及后续节点,栅极泄漏问题再次凸显,加剧了动态功率密度带来的散热压力。
2 纳米制程将通过全环绕栅极场效应晶体管(gate-all-around FET)再次解决栅极泄漏问题,未来某一节点还将采用互补场效应晶体管(complementary FET)以及钼乃至二维材料等新型材料。但如果逻辑电路利用率过高,功率密度问题仍将存在。因此,在多芯片封装结构中,先进逻辑电路的使用方式可能需要复杂的权衡,同时还需考虑系统内数据的物理处理或预处理位置。
这一经济模型还涉及其他因素,例如芯片从概念设计到最终测试的周期。“部分客户希望自行完成设计,由我们提供硅片、封装并整合所有组件,”Rapidus 的贝卡表示,“我们的制造专注于单晶圆加工,不采用批量处理。这使我们能够从每个晶圆中获取大量数据,并反馈到设计环节。因此,我们实现了设计与制造的协同优化,结合客户需求和内部优化,能够提供客户所需的定制化服务。周转时间将是至关重要的因素。”
对于人工智能数据中心而言,时间就是金钱,但多芯片封装中芯片的组合与相互作用使其经济性同样复杂。逻辑电路可拆解为芯粒,通过 2.5D 方案借助大型硅中介层连接,但中介层越大,成本越高,信号传输距离越长,对性能的影响也越大。
芯粒也可通过 3D 集成电路(3D-IC)或 3.5D 封装进行堆叠,但这需要更长的开发时间。这些封装结构可集成中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)、张量处理器(TPU)等各类组件,采用相同或不同制程节点,但集成过程需要深入理解每个芯片的物理效应,并进行复杂的平衡调整。
结论
迈向更先进制程节点的原因不再局限于单一或两个因素,而是因市场细分、工作负载或传统 PPA/C 指标的不同而变化。对于部分应用,优化其中一项指标可能已足够,而其他应用则需要全面优化所有指标。但在越来越多的情况下,最终设计将整合多种制程节点,并通过新的 PPA/C 权衡方式,平衡整个系统的优先级。
“回顾过去 40 年的历史,部分节点在功耗演进、性能演进或面积演进方面表现突出,” 泛林集团的弗里德表示,“但归根结底,所有这些因素共同决定了一个节点的价值。面积演进和性能演进的速度已有所放缓,而随着我们采用这些先进器件架构,功耗演进仍保持良好势头,成本演进将成为节点价值的核心驱动因素。如果每片晶圆能产出约 1.7 倍的芯片,同时在性能和功耗方面有所提升,这将成为演进的关键动力。但最终应用场景决定了对功耗、性能、面积或成本的优先级排序 —— 例如,可穿戴设备对面积和成本的敏感度远高于功耗和性能;而对于必须依靠电池供电、无法充电的设备,功耗将比面积和成本更为关键。”


评论