用FMEA设计FIT,用FIT验收FMEA
硬件可靠性闭环:用FMEA设计FIT,用FIT验收FMEA
可靠性设计与测试是很“苦逼”的,这份“苦逼”的背后,是多年沉淀的可靠性思维——质量从来不是测试出来的,而是设计出来的。而支撑这份设计的核心工具,正是FMEA;验证这份设计的关键手段,便是FIT。今天我们就聊聊硬件可靠性的闭环逻辑:用FMEA设计FIT,用FIT验收FMEA。
可维护性和可靠性验收非常重要,硬件维护工程师在后端发现问题后,总结成可维护性和可靠性需求,在产品立项的时候与新特性一起进行需求分析,然后经过设计、开发和测试环节后,在产品中落地。这些需求最终实现的效果是否和需求提出人想要达到的效果一致,需要硬件维护工程师进行验收。
硬件维护工程师越早参与,效果越好。如果等到转维审查的时候才参与验收,发现偏差需要修改和测试,相当于需求要重新开发一次。推荐硬件维护工程师在需求分解的时候就参与,然后在开发和测试的时候再进行一次审视。

如果能从早起工作去解决后期可能出现的问题,并形成有效的方法论,则可以实现问题前置,则实现产品质量提升。
先看一个真实案例:忽视可靠性设计,代价有多高?
有一款主力发货的硬件产品,架构很明确:主用主控通过FE通道管理线卡,线卡到主用主控有两条通道——实线的主用FE通道,和虚线的备用FE通道,理论上可实现故障冗余。

但现场出现了一个诡异问题:每天固定时间,线卡板就会复位,复位后还无法注册,直接影响业务正常运行。
层层定位后,真相逐渐清晰:
线卡板到主用主控的FE通道有错包,导致管理报文丢失;
核心问题出在FE通道切换机制——可靠性需求实现有偏差,主用主控没等切换到备用通道,就判定线卡板故障并将其复位;
复位后线卡板仍优先走主用FE通道协商,丢包问题未解决,协商失败导致无法注册;
进一步排查发现,错包源于主用主控的LSW芯片,而芯片故障的根源是晶振跳频——环境温度25℃左右时(晶振表面50℃),125M晶振频偏达到20ppm,超出125M±10ppm的规格,且仅在这个温度区间出现问题。
这是一个典型的可靠性设计疏漏案例,事后总结了4点改进措施,其实每一点都能通过FMEA提前规避:
优化FE通道切换机制:一条通道故障时,优先切换至备用通道,而非直接复位线卡;
完善故障定界逻辑:多个线卡FE通道同时故障时,判定为主用主控故障,优先主备倒换,不盲目复位线卡;
增加错包日志记录:FE通道错包达到一定数量时,自动记录日志,便于快速定位问题;
优化异常处理流程:主控发现线卡异常先上报告警,有备份通道则切换业务后再复位,无备份通道仅告警不复位。
这个案例也印证了一个核心观点:硬件维护工程师越早参与可靠性设计,后期返工成本越低。若等到转维审查时才验收,发现偏差再修改测试,相当于重新开发一次,得不偿失。最合理的方式,是在需求分解阶段就介入,开发、测试环节再反复审视,形成全流程把关。
核心概念:FMEA与FIT,到底是什么?
先搞懂FMEA:可靠性设计的“风险防火墙”
FMEA(失效模式与影响分析),本质是FMA(故障模式分析)和FEA(故障影响分析)的组合,核心是提前识别产品或过程中可能出现的风险,在现有技术范围内消除或降低风险至可接受水平。
它不是一个单纯的工具,更是一种设计理念——在设计电路、软件的那一刻,就思考“这个部件坏了会影响什么”“如何提前防范”,而不是等故障发生后再补救。
回顾FMEA的发展历史,能更理解它的重要性:
50年代初,美国首次将其用于战斗机操作系统设计;
60年代中期,正式应用于航天工业(阿波罗计划);
70年代末,进入汽车、医疗设备工业,80年代初延伸至微电子领域;
1991年,ISO-9000推荐使用;1994年,成为QS-9000认证要求。
如今,从复兴号动车组到新能源汽车,从服务器到消费电子,FMEA已成为制造业可靠性设计的核心工具,中车唐山公司的CR400BF-S动车组DFMEA项目,就曾入选全国FMEA应用典型案例,用实践证明了其价值。
做FMEA的核心目的,是用最低成本修改产品/过程,避免事后危机;而它的益处也很直接:
精准定位设计薄弱环节,提前制定对策;
实时优化设计,节省开发时间和成本;
适用于设计、制造、检查全流程;
提升产品质量、可靠性与安全性。
再看FIT:可靠性设计的“验收标尺”
FIT,即失效注入试验(Fault Injection Test),是验证可靠性设计的关键手段——FMEA负责“提前设计风险防控”,FIT负责“验收设计是否有效”。
很多人会疑惑,为什么不直接验证MTBF(平均无故障时间)?因为在开发阶段,这几乎不可能实现:
可靠性是统计结果,需要足够大的样本量;
验证周期长、试验量大,不符合开发节奏;
难以模拟现场复杂的应用环境,验证结果不具参考性。
而FIT测试恰好解决了这些问题,其核心验证目的有3点:
推动可靠性增长:通过测试发现问题,针对性优化,提升系统可靠性;
验证系统能力:检验系统的故障恢复、故障管理能力;
定量估计指标:对产品故障恢复能力做量化评估,验证可靠性指标是否达标。
设计FIT方案时,需遵循两个核心原则:一是保证测试覆盖率,不遗漏关键故障场景;二是保证工作量可执行性,避免测试成本过高。
值得注意的是,FIT用例设计需结合FMECA(失效模式、影响及危害性分析)结果,考虑故障出现的概率;对于能产生同一种影响的不同故障,可进行模式收敛——只需模拟一种故障模式(前提是通过故障影响检测故障,而非直接检测故障模式)。
深入理解FMEA:遍历性、系统性,缺一不可
FMEA的核心思想,浓缩为两个词:遍历性、系统性,这也是它能有效防范风险的关键,在硬件设计中具体体现为两种分析方法:
1. 硬件法:极致遍历,不留死角
从硬件视角出发,逐一分析每个器件、每个器件的每一个管脚,明确其可能的故障模式、对系统的影响,以及对应的检测和补偿措施。正是这种“逐个排查”的思路,体现了FMEA的遍历性,确保不遗漏任何一个潜在故障点。
2. 功能法:系统梳理,兼顾全局
按产品的功能输出分类,逐一列出每个功能,分析其可能的故障模式,适用于系统级、单板级的整体分析。这种方法按功能和场景梳理,体现了FMEA的系统性,确保从全局视角把控故障影响。

FMEA的核心操作逻辑
做FMEA分析时,需先明确故障的严酷等级,再梳理系统结构图(清晰呈现功能模块关系、输入输出信号),最终形成FMEA分析表格,核心围绕“故障模式-故障影响-检测措施-改进对策”展开:
严酷等级1:故障导致整个系统崩溃或主要功能严重受损;
严酷等级2:故障影响主要功能、导致任务延误或存在重大隐患;
严酷等级3:次要功能丧失/下降,需立即修理,但不影响主要功能;
严酷等级4:部分次要功能下降,仅需一般维护,不影响功能实现(如普通告警)。
总结:可靠性闭环,始于设计,成于验证
很多硬件工程师急于出成果,往往忽略可靠性设计,最后因小失大,反复返工。其实就像老话说的“磨刀不误砍柴工”,FMEA和FIT的结合,正是硬件可靠性的“磨刀石”。
FMEA的核心是“防患于未然”,它让我们在设计阶段就规避潜在风险,明确冗余策略、复位策略、故障处理逻辑,从源头决定产品的可靠性上限;FIT的核心是“验证落地”,它用失效注入的方式,检验FMEA设计的有效性,确保可靠性需求真正落地。
描述结构图 :
清晰功能模块之间的相互关系,主要输入/输出信号。

参考的FMEA表格:

我曾经开发过程中,也非常的急于出成果。但是正真做成硬件精品,往往忽略一些功能设计之外的考虑,最后导致返工。
可靠性设计,包含FMEA的设计是很重要的。磨刀不负砍柴工,从设计阶段,就融入可靠性、预防失效的思考,让你的设计上升一个台阶
从穿戴设备,到复兴号的动车组,所有硬件精品的背后,都离不开这种“设计-验证”的闭环思维。可靠性不是“不出问题”,而是“出得起、找得到、回得来”,而FMEA与FIT,正是实现这一目标的核心支撑。
愿每一位硬件工程师,都能重视FMEA设计,用好FIT测试,少走返工弯路,做出真正经得起现场考验的硬件产品。



评论