芯粒与三维集成电路带来全新的电气和机械挑战
核心要点
随着芯粒被集成至封装中,系统内各组件的缺陷率指标要求愈发严苛。
传统的技术壁垒正在被打破,设计团队不得不着手解决此前由代工厂负责的材料选择等问题。
芯粒架构在数据中心的快速普及,正推动着从芯粒设计、封装到实际应用全流程的全方位变革。相关成本激增,可靠性担忧加剧,以往用于控制成本、保障器件正常工作的方法已逐渐失效。
行业关注的焦点不再局限于电迁移和电源完整性,还新增了随工作负载、互连数量与类型、z 轴设计延伸范围变化的热机械应力问题。建模工作需要做到精准无误,电路和系统层面的应力缓解策略也需形成清晰认知。电子设计自动化工具正随之迭代,新增了应力分析、材料管理和接口验证等功能。
西门子EDA中央工程解决方案总监普拉蒂尤什・卡马尔表示:“可靠性是芯粒和三维集成电路面临的最大挑战,且这一问题已变得极为突出。芯粒在设计阶段会设定特定的缺陷率、可靠性标准和设计约束。假设一块单片芯片的设计缺陷率目标为百万分之十,若改用芯粒方案,用两颗甚至三四颗芯粒替代单片设计,那么封装中的每一颗芯粒都可能单独失效,封装本身也会引入新的失效模式。这意味着每一颗芯粒都需要按照极低的缺陷率标准设计,才能让整体达到单片芯片的缺陷率目标,而这也要求二维芯片的基础设计思路做出根本性改变。”
从理论上讲,芯粒具备一定优势:相较于片上系统,芯粒尺寸更小、功能更专一,因此能降低设计复杂度和工艺偏差,更易开展验证、检测和测试工作。楷登电子资深工程师莫希科・埃默称:“芯粒并非带来更多挑战,有时甚至能简化问题。试想一下,设计一个系统时,不再采用单片系统芯片,而是按特定功能拆解为多个芯粒,每一颗芯粒都是一块更小的硅片,集成的功能也更少。有时芯粒仅集成片上网络和特定功能相关模块,部分场景下还只需支持更少的时钟频率或更低的功耗模式,这些都让设计工作简化了很多。”
业内其他人士也持相同观点。奎德立克公司首席技术官兼联合创始人奈杰尔・德雷戈表示:“芯粒能提升系统可靠性,因为我们可以为特定电路匹配最适配的工艺技术。随着工艺节点不断微缩,模拟电路的设计难度大幅增加,比如当工艺突破 3 纳米后,静态随机存取存储器的微缩基本陷入停滞。如果工程师为了实现电路基础功能就已费尽心力,便没有多余的时间和精力去优化可靠性。而如果能为特定应用的电路选择最适配的工艺,会带来两大优势:一是降低成本。比如模拟电路若采用 12 纳米工艺,该工艺已非常成熟、设备折旧完成,电路设计师也积累了丰富的设计经验,继续微缩工艺也无法带来实际收益,那为何不一直沿用这一工艺呢?”
不过,芯粒的可靠性和良率只是问题的一部分。当前封装工艺的一致性较差,将芯粒连接至中介层或衬底所使用的互连和键合工艺也存在较大偏差。尽管随着芯粒的主流化,这些问题有望得到解决,但这需要一定的时间。
德雷戈说:“这些问题都是暂时的,最终会得到妥善解决。毕竟将芯片封装到印刷电路板上的难度,远大于把芯粒集成到硅基衬底上。在硅基衬底上,我们能实现更强的工艺控制,受到的整体干扰也会更少。”
即便如此,多裸片集成中仍出现了诸多新问题,包括更薄的裸片、不同的键合材料、复杂的互连方案和布局规划等。
新思科技产品营销总监马克・斯温宁表示:“除了业内熟知的可靠性问题,芯粒和三维集成电路还打开了一个‘潘多拉魔盒’,带来了许多此前无关紧要或仅归属于封装环节的全新可靠性问题。在单片芯片设计中,这些问题由封装团队负责,但如今已成为三维集成电路布局规划的核心问题。芯粒和三维集成电路最主要的可靠性问题是机械翘曲和应力 —— 翘曲可能导致器件机械开裂,而应力不仅会引发长期失效,还会改变器件的电气特性。”
目前,电子设计自动化企业正与代工厂合作,研究应力对电子性能的影响。斯温宁说:“晶体管在制造时会刻意引入应力以获得所需的电学特性,因此应力并非设计领域的新问题。但外部应力会改变晶体管的固有电学特性,我们能否通过计算精准量化应力的影响?这一技术闭环目前尚未形成。”
裸片到封装的设计方法和技术仍在不断发展。埃默表示:“过去,每个封装中只有一块硅基裸片,片上系统裸片的设计与封装设计是完全分离的,属于一种‘分而治之’的模式。片上系统的架构师、设计师、验证工程师、物理设计工程师等团队,只需专注于裸片内部的所有设计工作,封装设计则在裸片设计完成后才启动,二者之间完全割裂。当然,双方会进行对接,裸片设计团队会向封装团队提供芯片的边界条件,包括凸点位置、电气特性、电源需求等,并基于双方商定的标准开展设计;封装团队则将这些信息作为输入,确保封装设计能为芯片提供支撑。但二者的工作始终完全独立:裸片设计完成后进行流片,封装设计则在流片前夕启动,并在流片后继续推进。而芯粒的出现,彻底改变了这一模式。”

图1:分解与专业化。来源:Bryon Moyer/半导体工程
热机械应力问题
芯粒带来的最大变革之一,是行业必须重点关注热机械应力问题,这一问题主要由不同材料的热膨胀系数差异引发。
斯温宁解释道:“在芯粒集成过程中,需要将多块芯粒相互压合以实现键合连接,仅制造环节的外部操作就会产生机械应力。我们多次收到客户的需求,希望能对制造过程中的应力进行建模分析。据某代工厂透露,将芯粒相互压合时,让微小的焊料凸点贴合所需的单一点压力并不大,但当焊料凸点的数量达到上百万个时,整体所受的压力会非常巨大。此外,芯片允许发生一定程度的凹形弯曲,却有严格的弯曲限度,且绝对不能发生凸形弯曲。因此,我们需要考虑的不仅是器件内部产生的热机械应力,还包括外部应力,同时还要应对热循环、分层和键合开裂等问题。这些微小的键合点数量庞大、尺寸极小,却要承载大电流,这使其成为可靠性的关键隐患。”
三维集成电路还带来了其他挑战,比如硅通孔的互连问题。斯温宁说:“这一环节的可靠性问题开始凸显,同时还伴随电源完整性等传统问题。如今,我们面对的不再只是单一芯片,而是整个系统,这让问题变得极为棘手。静电放电问题也是如此:现在需要设计跨越多个芯粒的静电放电路径,如何验证该路径的安全性?这一问题的难度被大幅放大。除此之外,还出现了机械应力、翘曲等全新的问题。”
不同材料的使用也带来了新的挑战。斯温宁表示:“过去,芯片设计师从不需要考虑材料问题,因为材料的选择和淀积全由代工厂负责,相关标准是固定的。但在引入中介层后,散热和热界面材料的选择有了多种方案。此前,芯片设计团队和封装团队在材料问题上的分歧本就存在,如今芯片设计团队不得不深度参与其中,这也让材料选择和材料管理成为亟待解决的难题。”
从工艺技术入手解决问题
电路的可靠性始于工艺技术,因此行业的关注重点也大量集中于此。卡马尔说:“从外观上看,鳍式场效应晶体管、纳米片晶体管和海量的逻辑门结构非常均匀,至少在某一层金属布线以下是如此。在前段工艺中,晶体管层的鳍状结构是连续的,但即便在这一环节,也存在诸多挑战。例如,某代工厂曾因一个基础的与非门电路遭遇重大失败,该与非门由两个串联的晶体管构成。标准单元中有两种连接方式,一种用于输入输出接口,另一种用于电源传输,那么哪种节点更容易受到噪声干扰?”
当同一个标准单元在裸片上被重复布局上千次时,每个单元所处的环境都会存在巨大差异。卡马尔说:“这些工艺存在大量的局部和全局偏差,且随着工艺复杂度的提升,偏差会不断扩大。设计师需要确保电路节点不受噪声干扰,控制输入输出接口的时序,避免其在布局布线流程中出现大幅波动;在布局上,要让输入输出接口更集中,尽可能将相关布线集成在标准单元内部,而非暴露在单元边界。但上述代工厂却采取了完全相反的设计方案:本应将电源和地的布线布置在标准单元外部,实现单元左右两侧的连接,将标准连接方式用于输入输出接口,他们却颠倒了二者的用途。这导致团队在对这些库单元进行布局布线时,无法在误差范围内实现时序收敛。”
在芯粒和三维集成电路设计中,晶体管层面的问题变得更为复杂。卡马尔说:“设计师在标准单元层面能做的工作有限,但代工厂作为库单元的提供者,拥有更大的操作空间。代工厂必须在标准单元的设计中,充分考虑这些基础问题。触发器、锁存器等存储结构是失效的高发区;跨域信号传输、电压域切换、复位域切换等环节,在标准单元设计中也需要进行极为细致的考量。代工厂需要将标准单元的缺陷率目标设定到前所未有的低水平。”
而在模块层面,复位域切换的设计也需要格外谨慎,因为当前的设计流程在芯粒和三维集成电路中存在一个致命缺陷:当硅片流片、封装完成后无法正常工作时,工程师团队需要开展调试工作。
卡马尔解释道:“工程师会通过内部联合测试行动组接口对芯片内部进行检测,有时会发现一半模块的状态显示为 0,另一半显示为 1,这就是故障的根源。但在重新设计和重新制作掩模版之前 —— 毕竟掩模版的成本高达 2000 万至 3000 万美元 —— 工程师需要开展更多的调试工作,验证设计假设是否正确。我们通常会使用聚焦离子束技术,从硅片背面对电路进行修改,因为晶体管位于前段工艺层。目前,聚焦离子束的使用范围一般被限制在晶体管栅极的源极和漏极端附近,从硅片背面操作难度较低,因为该区域目前尚无金属布线;而硅片正面有大量金属布线层,操作时绝不能对其造成切割,否则会损毁整个电路。”
但英特尔在 20 纳米(20 埃)工艺中采用的背功率供电技术,彻底改变了这一现状。卡马尔说:“在任意一个三维集成电路堆叠结构中,都会有一层包含背部金属布线,这让聚焦离子束技术无法再被使用。而在如今的设计中,失效是完全无法接受的,我们该如何应对这一问题?对于模拟电路,我们会采用基础的冗余设计,目前汽车电子领域已实现双重和三重冗余,还引入了锁步核等技术,但这种冗余设计的成本极高。现在,我们需要将这种粗粒度的冗余设计精细化,因为三维集成电路的成本本就居高不下,2 纳米等先进制程的成本更是极为昂贵,必须对设计进行持续优化。我们无法承担双核心冗余的成本 —— 即一个核心失效后启用备用核心,这也是当前服务器芯片采用的方案。英特尔的芯片之所以能始终保持高利用率,正是因为其设计采用了大量重复的模块,部分模块失效不会影响整体功能。这种设计思路已应用于多个计算领域,但在移动芯片和三维集成电路中,布局和架构并不具备这种均一性。冗余设计依然重要,但需要在更低的层级实施,实现最优的冗余配置,而非简单的核心复制。”
随着系统复杂度的不断提升,将这些基础的可靠性策略与系统级集成的实际情况相结合,凸显出全流程设计方法的重要性。由此,行业的讨论焦点也转向了在单一系统中集成多颗芯粒时,至关重要的架构和封装考量。
与传统的片上系统项目生命周期相比,采用多芯粒设计时,必须在架构设计和规划的早期阶段就考虑封装问题。
埃默表示:“设计一个多芯粒系统,首先能实现更大规模的系统集成,将更多硅片集成至同一个封装中。这些芯粒是相互独立的裸片,为确保设计符合标准,需要考虑诸多因素。例如,面向边缘设备的设计需要满足特定的可靠性要求,而面向数据中心或基础设施的设计则有不同的考量维度。在设计多芯粒系统的架构时,无论芯粒采用成熟工艺还是先进工艺,通常会是多种工艺的组合,设计师不仅需要考虑如何在各芯粒间分配功能模块,还要思考如何将这些芯粒集成在一起,并选择合适的集成方案。”
芯粒的集成方式有多种选择。埃默说:“我们可以通过有机衬底实现简单的集成,比如采用标准的通用芯粒互连 Express 联盟接口;也可以通过中介层或桥接器实现更先进的集成,裸片的并排集成和混合键合堆叠集成技术也正逐步落地。所有这些集成方式,都需要在架构和设计阶段就进行全面考量。行业还需要推出新的电子设计自动化解决方案和工具,以验证这些设计条件。因为从可靠性角度来看,互连的失效主要分为两种情况:一种是互连线路本身的失效,即信号或电流传输过程中,金属线路随时间发生老化;另一种是连接点的失效,即线路与其他器件的接口处失效,这也是更常见、更棘手的失效问题。”
在解决这些架构和集成挑战的同时,探究可靠性问题在这一新格局下的演变也尤为重要,这关乎现代芯粒技术及其配套封装方案的持续发展,以及由此产生的独特可靠性考量。
埃默表示:“当前的芯粒技术仍处于发展阶段,相关研发工作一直在推进,尚未成为一项所有环节都实现量产、仅需小幅优化的成熟技术,而是正处于高速发展期。我们需要应对诸多新问题,这些问题既影响连接部位的可靠性,也关乎信号传输材料的可靠性。以重分布层中介层为例,这是一种全新的器件,信号如何在其中传输?其对系统可靠性有何影响?这些都需要深入研究。”
在部分设计中,产品性能仅勉强达到标准要求。即便硅片流片、封装完成后的测试显示产品合格,其在实际应用中仍可能发生失效。
埃默说:“随着系统的复杂度不断提升,需要在封装层面开展这类验证工作,除了像以往一样参考边界标准,还需要将裸片的内部信息纳入封装级分析中。可靠性是其中的重要组成部分,需要同时考量接口和连接点的实际状态,以及线路中的信号传输情况。如果两颗芯粒采用并排集成方式,信号的传输距离会大幅增加。以通用芯粒互连 Express 联盟接口为例,该接口用于连接两块裸片,属于并排连接,裸片并非相互堆叠,二者之间存在一定距离,中间有中介层和接口进行连接。通过该接口的连接距离最长可达 25 毫米,这意味着信号传输的尺度从芯片级的微米级,提升到了裸片间的毫米级。信号需要始终保持可靠且抗干扰,因此设计师必须在实际制造前,对整个系统进行测试和仿真,否则无法保障系统的正常运行。展望未来 5 到 10 年,业内提出了芯粒交易市场的构想 —— 芯粒可实现标准化量产、上架销售,客户可直接采购并集成至自有系统中。要实现这一构想,所有相关指标都需要进行明确规范,包括芯粒的边界标准。因为无法预知芯粒的集成方、所采用的封装形式以及搭配的其他组件,而目前这些标准尚未完成制定和统一。”
结语
芯粒有望重塑芯片行业,为行业带来灵活性和可扩展性,但同时也带来了可靠性、集成和标准化等一系列复杂挑战,这些挑战需要在研发的最初阶段就进行妥善应对。尽管封装和接口标准的发展前景向好,但成本和接口知识产权方面的遗留问题,仍要求行业持续开展合作与创新。
要实现芯粒技术的规模化应用,行业必须将稳健的验证方法置于优先位置,确保芯粒的无缝集成和长期稳定工作。归根结底,芯粒系统的成功,取决于能否在技术进步与这些未解决问题的实际解决方案之间实现平衡。









评论