基于FPGA的三模冗余容错技术研究

作者：时间：2011-04-07 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要：基于SRAM的FPGA对于空间粒子辐射非常敏感，很容易产生软故障，所以对基于FPGA的电子系统采取容错措施以防止此类故障的出现是非常重要的。三模冗余(TMR)方法以其实现的简单性和效果的可靠性而被广泛用于对单粒子翻转(SEL7)进行容错处理。但传统TMR方法存在系统硬件资源消耗较多且功耗较大等问题。总结了传统TMR方法存在的问题，分析了一些近年来出现的改进的TMR方法的优劣，针对其存在问题指出了改进策略，并展望了TMR技术的发展趋势。
关键词：TMR；容错；FPGA；SEU；重构

0 引言
基于SRAM的现场可编程门阵列(Field Programmable Gate Array，FPGA)对于带电粒子的辐射特别敏感，尤其是近年来高密度集成芯片的出现，电路容量增大、操作电压降低使得它们在辐射环境下的可靠性降低。其中软故障是主要的故障，它是由粒子和PN结相互作用引起的一种暂态故障，软故障对在基于SRAM的FPGA上实现的电路具有特别严重的影响。由于三模冗余(Triple Modular Redundancy，TMR)技术简单性以及高可靠性，它是一个被广泛使用的针对于FPGA上的单粒子翻转(Single-Event Upset，SEU)的容错技术。文献中表明TMR大幅度提高了FP-GA在SEU影响下的可靠性。尽管TMR能有效提高设计的可靠性，但是由于要实现额外的模块与布线，它对硬件资源以及功耗消耗较大，而且工作速度也受到影响。这都限制了传统TMR的使用。随着电子技术特别是部分可重构技术发展，出现了多种改进的TMR技术，它们都针对性地解决了传统TMR方法所存在的问题，使得TMR技术得到发展。本文首先介绍了传统TMR的原理，接着总结了其所存在的问题，然后对改进的TMR技术的优劣进行了全面的分析，最后对TMR技术发展趋势进行了展望。

1 常规TMR方法及存在的问题
TMR的基本概念是用三个相同的模块分别实现相同的功能，最后在输出口通过一个多数表决器对数据进行选择以实现容错的目的。TMR的使用是建立在某一个时刻错误只出现在一个模块里的基础上，而实际上，因为在不同的模块里同时出错的概率是比较低的，而且实现过程直接、简单，所以TMR是现在比较有效且被大量使用的一种容错的方法。TMR主要被广泛用于防止由辐射引起的SEU对系统的影响，由于它的使用使FPGA在SEU影响下的可靠性得到很大提高。常规TMR方法的基本结构如图1所示。

本文引用地址：https://www.eepw.com.cn/article/191254.htm

尽管TMR可以有效提高设计的可靠性，但是它也存在很多不足之处。主要有以下几点：
(1)它不能对出错的模块进行修复。当一个模块出错后，我们只是将错误通过多数表决器屏蔽，但是错误模块仍然存在。而且一般的TMR也不能对错误进行检测和定位，以便系统进行修复。如果出现的错误得不到及时修复，那么当再次出现错误时TMR将失效。
(2)很多研究只是考虑到单个错误的影响，而忽略了多个SEU同时出现的可能，尽管出现这种情况的概率较低，但却是存在的。实验也表明TMR对减弱单个SEU产生的影响是非常有效的，但SEU在配置存储器中积累会使效果降低。
(3)普通TMR资源开销大，资源利用率低。普通TMR是对整个设计或者较大的模块进行三模冗余，粒度比较大，它的资源开销相比原始电路增大200％。如果受到FPGA硬件资源和功耗等设计约束的限制不能对整个电路或者模块实现TMR，那么会造成资源浪费。
(4)由于电路的倍增使得功耗增大，而且由于表决器的存在以及其他一些额外的布线使得速度降低。
(5)表决器本身也可能出错，而一般的TMR的表决器没有自检错能力，也不具备抗辐射能力。
(6)当采用三模冗余的电路驱动没有采用冗余的电路时，需要一个表决器将三个信号合为一个信号。当没有采用冗余的电路驱动采用三模冗余的电路时需要通过额外的布线将一路信号扩展称为三路信号。因为逻辑电路和布线资源都对SEU敏感，所以这样的结果会降低系统可靠性。

新闻中心

基于FPGA的三模冗余容错技术研究

评论

相关推荐

技术专区