关 闭

新闻中心

EEPW首页 > 安全与国防 > 设计应用 > Teledyne e2v宇航级数字处理产品的辐射缓解技术

Teledyne e2v宇航级数字处理产品的辐射缓解技术

作者:时间:2022-08-11来源:电子产品世界收藏

摘要

本文引用地址:http://www.eepw.com.cn/article/202208/437251.htm

最先进的耐辐射 CPU 和存储器使用的技术会受太空严苛辐射环境的影响。为了应对银河宇宙射线、质子或中子撞击对器件产生的单粒子效应(SEE),我们必须采取措施。了解特定辐射环境下的辐射效应对制定、设计和验证使用耐辐射器件的宇航系统的流程以及提出方案非常重要。合适的技术需考虑辐射环境和电子器件的不同,这一点是降低成本、提高系统可用性和吞吐带宽并减少引入的误差的关键。在设计阶段,必须计算模型和错误率,以预测系统的性能需求。 可提供最先进的可在严苛辐射环境下工作的耐辐射数字器件,并帮助验证辐射缓解技术是否适用于宇航环境,是否能最大程度地为当前和未来的设计降低系统辐射效应。本文将首先介绍在半导体上可观测到的一般辐射效应,然后讨论在 的计算密集型宇航器件上观测到的典型辐射效应,最后提出并讨论针对这些辐射效应的可用的辐射缓解技术。

1660204505112137.png

1. 太空辐射效应的介绍

辐射对半导体的影响与多个因数有关,例如工艺制程、器件几何结构、电路实现和器件应用的太空辐射环境(低地球轨道(LEO)、中地球轨道(MEO)或地球静止/地球同步轨道(GEO/GSO))。太空中有 3 种主要的辐射源:银河宇宙射线、太阳辐射和辐射带(粒子受地球磁场的影响聚集在地球附近的某个区域)。在特定辐射环境下半导体器件的性能寿命通常用总电离剂量(TID)和单粒子效应发生的频率(SEE)表述。太空中的电子系统所受的辐射与轨道、任务寿命和屏蔽措施有关。辐射带附近的离子通量的能量范围在 0.1 到 10MeV 之间,会击穿半导体的封装并导致总电离剂量(TID)效应和单粒子效应(SEE)。具体来说,动能超过 300KeV 的辐射离子有更大的潜力穿透塑料、陶瓷或金属的半导体封装从而影响到内部的裸片。

辐射通过两种方式影响半导体:1)累积效应(很多高能粒子通过而导致的长期效应)或 2)单个粒子通过而导致的事件。累积辐射剂量效应通常用总电离剂量(TID)量化,即捕获并计算特定器件内由辐射产生的电荷,它会随时间的累积导致器件参数的漂移。由单个粒子产生的效应被称为单粒子效应(SEE),它是一种随机/瞬时的中断。

SEE 会导致破坏性或非破坏性的异常。非破坏性的 SEE 会破坏输出或数据状态,但不会影响或损坏器件本身。当发生非破坏性 SEE 时,只要非平衡电荷和其效应完成重组并保持稳定,就无需外部输入来恢复系统的状态。非破坏性 SEE 包括:SET(单粒子瞬变)、SEU(单粒子翻转)、SEFI(单粒子功能中断)和某些限制最大电流并不造成器件损坏的 SEL(单粒子栓锁)。破坏性的 SEE 会破坏输出或数据状态,并导致半导体器件损坏。破坏性 SEE 包括离子撞击导致的低阻抗/大电流对器件造成的永久损坏。如果器件不是永久性损坏,则需重新上电(关/开)以恢复正常运行。除了破坏性的 SEL 之外,SEGR(单粒子栅穿)和 SEB(单粒子烧毁)也是灾难性的事件,它们会导致电源和地之间突然出现低阻抗通路,并在辐射事件结束之后依然存在。


2. TELEDYNE E2V 的产品的辐射效应

用高能重离子和质子对耐辐射 CPU 和存储器样片进行辐射,在加速器中实现 SEE,从而测试待测器件(DUT)的辐射性能。当 DUT 上电并在正常条件下运行时(SEL 是例外,需在最大电压和温度下测试),我们会检测电源电流和输出状态。随后,我们用重离子或质子轰击 DUT,并记录电源电流和输出状态的任何瞬态变化。线性能量传递(LET)是电离粒子在单位距离内传递到器件上的能量。LET 取决于离子束的离子和能量,因此不同的离子会有不同的 LET。LET 会影响 SEE 的概率。LET 越高,硅中产生的载流子越多,载流子被困在电场中的概率越大,这种效应是可以被测量的。

对于数字设备,我们监视其被辐射时产生的单粒子效应(SEE)(即由单个高能粒子撞击产生的任何可测量或可观察的性能状态的变化)。SEE 包括单粒子翻转(SEU)、单粒子功能中断(SEFI)、单位/多位错误(S/MBE)和单粒子栓锁(SEL)。检测 SEE 通常需要打开封装以露出裸片的有效区域。例如,采用倒装结构封装的器件需要移除盖子并将裸片打薄至大约 75 微米,以最大化其所受的辐射影响。

除 SEE 测试外,我们还进行 TID 测试,流程如下:1)将晶圆单位封装 2)使用自动测试设备(ATE)测试待测器件 (DUT)的电性能 3)将 DUT 放在测试板上,使其一半处于正常工作条件 4)将测试板暴露于辐射源下,对其进行额定 TID 的辐射,温度为室温,并检测其状态 5)使用 ATE 重新测试 DUT 以确保器件的功能依然正常,且没有任何关键参数漂移出数据手册的范围。对于耐辐射器件,Teledyne e2v 的总剂量(TID)的目标值是 100krad,栓锁 (SEL)的免疫值为最低 60MeV.cm²/mg。这是面向 GEO 轨道的参数。即使器件有能力耐受高辐射水平和剂量, 它们依然会发生 SEU 和 SEFI 事件。

对于存储器产品(例如 DDR4),我们通常会检测字错误(SBE 和 MBE),包括:1)行和列 2)SEFI 3)stuck 位。对于处理器产品(即 LS1046-Space),需检测的错误通常包括:缓存上的 SEU 以及核心和外设上的 SEFI。

从根本上说,太空/卫星研发团队必须准确了解特定的耐辐射存储器和/或 CPU 器件在太空飞行中可能出现的错误类型。显然,若器件没有出现某种类型的错误,则无需对这种从未发生的错误实施任何缓解技术。而对于出现过某种错误的存储器和处理器器件,则需使用辐射缓解技术以消除或减少错误率,从而优化太空飞行的运行状态。Teledyne e2v 通过分析错误截面与 LET 的关系并绘制威布尔曲线(图 1)来计算器件的 SEE 概率 (即 SEU、SEFI 等)。为了计算和预测在轨错误率,需将数据拟合到威布尔曲线上。若要完全了解器件对重离子和质子辐射的响应,可能需要进行多次试验。若产品发生任何重大变更,如使用新的硅片设计或版本变更,通常需要重复进行 SEE 特性测试。

image.png

另一个例子是 QLS1046-Space 处理模块(图 2)。这个处理模块使用一片 LS1046-Space 处理器和一片高速 DDR4 存储器。我们对其进行了多次辐射测试,以测试处理器和存储器的性能。对于 DDR4 存储器,我们观察到 4 种不同类型的事件:孤立字错误、行/列错误、SEFI 事件和 stuck 位。

1660204844334674.png

在测试存储器时,孤立字错误(图 3)是由于记忆单元上的局部离子撞击,改变了 1 位 (SBE)或几位(MBE)的状态,而导致的错误。

1660204887832800.png

在完成了器件的测试后,我们可计算出轨道错误率,以估算不采用任何缓解措施时,在特定条件下发生事件的频率。表 1 是 LS1046-Space 的 SEU 错误结果的例子。

image.png

3. 数字产品的可用的缓解技术

由于测试得到的错误率对于某些应用可能不够低,我们可以采用一些缓解技术,以进一步降低错误率并使其器件达到所需的性能或满足可用性的需求。宇航/卫星开发的辐射缓解技术要求选择并实现耐辐射的器件,并结合最新的尖端的 COTS 技术以平衡性能和可用性。宇航/卫星的开发遵循两种设计方法:1)传统:使用错误率低、价格昂贵的防辐射设计(RHBD)器件(采用独特的设计以防止器件损坏并减弱辐射的影响,以及抵抗大电离剂量)。这些为特定目的设计的半导体器件通常不会使用最先进的技术。2)新宇航:更注重任务的成功执行,愿意使用耐辐射器件,这些器件使用最新的工艺并可拥有强大的性能。

半导体的辐射耐受性取决于多种可控或不可控的变量。由于错误的发生难以避免,设计带有内置纠错电路(ECC)的耐辐射产品是很重要的,必要时还可使用冗余纠错电路。例如,Teledyne e2v 的 QLS1046-Space 处理模块已完成了开发和测试流程,它使用了多种辐射缓解技术(冗余和非冗余),可满足给定辐射环境下所需的性能指标。为了管理辐射效应,典型的缓解技术需要使用板上 ECC(纠错电路)。ECC 在 DDR4 存储器中使用一个专用的额外字节,因此存储器的 72 位字大小被分为 64 位的实际数据和 8 位的纠错码。ECC 引擎内置于 LS1046-Space 处理器的 DDR4 控制器里。因此,DDR4 存储器的 ECC 字节的行为与其他的数据字节完全相同,而错误缓解由 LS1046 处理器完成。ECC 可检测和纠正 SBE,用户只需简单地启用这个功能即可缓解这些错误。避免 SBE 的累积(由于多次离子撞击导致)非常重要,因为随着时间的推移可能会导致 MBE。LS1046 还具有一个擦除引擎,可定期扫描整个 DDR4 存储器的内容,并纠正发生的 SBE。

为了解决辐射耐受的问题,我们还采用了电路级(多芯片)减少 SEE 的方法。常见的电路级设计技术包括:1)增加电路驱动能力并提供驱动冗余 2)增加额外的电路用于检测和纠正错误位。错误检测通常需要额外的 1 位来存储每个数据字的奇偶校验(无论字长如何)。当发生单位翻转(SBU)时,数据的奇偶校验结果与校验位不同。奇偶校验电路允许在两个电路(和存储器宽度)中以最小的成本检测单个位错误。不幸的是,奇偶校验电路的实现有两个缺点: 1)它只是一个检测系统,无法纠正错误 2)多位翻转(MBU)无法被检测出,会一直留在存储器中。这就是所谓的静默数据损坏。

如今,耐辐射系统需要不断提高可靠性级别,同时避免发生静默数据损坏,并最大限度地提高处理器的可用性和性能。系统 级架构可通过双模冗余电路(DMR,图 6)或三模冗余电路(TMR,图 7)实现。这两种架构可在逻辑路径中检测 SEU 或 SEFI 错误。对于 DMR 系统,当两个输出不同时,触发错误检测。对于 TMR 系统,错误检测通过否决裁决器的另外两个有效输入实现。TMR 方法需使用 2 到 3 倍的硅片面积作为无保护数据路径,并需要专门的仿真工具来识别关键逻辑路径。最激进 且最昂贵的错误检测和纠正电路也可通过系统级冗余的方式实现。这需要使用重复的冗余处理器内核——多个相同的内核以 lockstep 的方式运行(同一时间执行相同的代码)。由于在每个冗余的内核上都运行相同的计算和指令流,这种方法无论在硅片面积和功耗方面都很昂贵。除了上述的错误纠正技术,我们还使用了数据擦除技术。数据擦除技术通过一个后台任务定期检查主存储器是否有错误,并通过冗余数据纠正检测到的错误。它降低了单个可纠正错误积累成不可纠正错误的风险,并可检查数据的不一致性,从而预防硬件和软件系统失效。擦除速率由SEU率决定(例如速率可以是1/天到1/5000天)。

1660205328261284.png

1660205345335548.png

结论

如今的 CPU 和存储器越来越复杂,测试越来越难,而且它们对辐射效应越来越敏感。使用这些器件实现新的辐射缓解技术对未来宇航飞行系统的发展具有重大的战略意义。我们必须测试器件的 SEE 错误,计算发生错误的概率,以理解辐射效应并实现最有效的辐射缓解技术。最重要的是,深入了解不同的错误率和概率与辐射环境之间的关系,以最低的成本、最少的引入误差实现最大的系统可用性和吞吐带宽。Teledyne e2v 可为开发团队提供关于耐辐射产品的信息和支持。客户如有需要,我们可提供专门的辐射缓解应用笔记。



评论


相关推荐

技术专区

关闭