摘要:摘 要:FMECA 通过识别装备中的故障模式, 分析各种故障的原因、 影响及可能对系统造成的危害, 发现薄弱环节并实施改进, 是一种经过验证的有效可靠性分析技术。但在实践中, 一方面由于研制方等相关方对FMECA 对于装备质量保证的作用认识不足, 另一方面由于
FMECA 对于装备通用质量特性的作用分析
康京山
(中国电子科技集团公司第五十四研究所, 河北 石家庄 050081)
摘 要:FMECA 通过识别装备中的故障模式, 分析各种故障的原因、 影响及可能对系统造成的危害, 发现薄弱环节并实施改进, 是一种经过验证的有效可靠性分析技术。但在实践中, 一方面由于研制方等相关方对FMECA 对于装备质量保证的作用认识不足, 另一方面由于FMECA 存在着参与人员多、 工作量大和占用科研周期长等问题, 使得一些装备在研制过程中未能有效地开展FMECA。分析指出:FMECA 不仅对于装备的可靠性的保证和提高有重要的作用, 对于维修性、 保障性、 测试性、 安全性和环境适应性等其他通用质量特性, 其也能够提供必要的支撑信息, 同样有着重要的价值。因此,应该在装备特别是复杂装备的研制中更加及时而广泛地开展FMECA 工作。
关键词: 故障模式影响及危害性分析;可靠性;安全性;维修性;测试性;保障性;环境适应性
0 引言
故障模式、 影响及危害性分析技术(FMECA:Failure Mode Effects and Critically Analysis) 包括两部分:故障模式与影响分析(FMEA:Failure Mode and Effects Analysis) 和危害性分析(CA:Critrcality Analysis)。
FMEA 是指分析装备中每一个可能的故障模式, 并确定其对该装备和上层装备所产生的影响, 以及把一个故障模式按其影响的严重程度予以分类的一种分析技术。FMECA 是指同时考虑故障发生概率与故障危害程度的FMEA[1]。
自从1950 年代美国提出将FMEA 方法应用于飞行控制系统取得成功以来[2], FMEA/FMECA 首先在航空航天领域得到了应用, 随后迅速扩展到电子工业、 汽车工业等各个领域, 国际、 国内的制订了相应标准[1,3-5]。
但是, FMEA/FMECA 在实际进行时存在一些困难, 例如:
1) 各相关方关于FMECA 对质量保证的重要性认识不够, 而且FMECA 分析结果的作用发挥得也不充分, 致使其工作的价值没有得到充分的体现;
2) 由于FMECA 采用自底向上的工作方式, 需要分析每一种装备或装备组成部分的各种故障模式, 参与人员多,工作量大, 因而其成为了一项劳动密集型任务, 而且不可避免地需占用科研周期。
由于以上原因, 当面对需要大量的人力投入和需占用研制周期时, 对于非强制要求进行FMECA 的装备研制, 往往不系统地开展FMECA 工作。而由于缺乏全面的FMECA作为支撑, 许多质量保证工作难以有效开展。
本文详细地分析了FMECA 对于装备的各种通用质量特性的作用, 指出了对于装备特别是复杂装备系统全面地开展FMECA 工作的必要性。
1 FMECA 的原理分析
1.1 FMECA 的目的
FMEA 通过将装备或过程分解为一组要素, 对于每个要素, 识别并分析其故障模式及影响。通过消除其不利影响或者降低其发生的可能性或严酷度, 来确定应该进行哪些改进。增加CA, 目的是为了确定对故障模式采取应对措施时的优先顺序[3]。
FMEA 或FMECA 作为一种通用的分析方法, 既可用于各层级产品, 也可用于过程。根据作用的对象, 可以把FMECA 进一步分为 功能FMECA、 硬 件FMECA、 软件FMECA、 过程FMECA 和工艺FMECA 等表现形式。在装备寿命周期的各个阶段, FMECA 方法均可发挥作用[4]。例如:在论证与方案阶段, 通过开展功能FMECA, 可以为产品功能设计的改进, 以及在多种方案中择优提供依据;在工程研制与定型阶段, 可以为硬件、 软件、 生产工艺、 生存性和易损性设计的改进提供依据;在生产阶段, 可以为装备生产工艺的改进提供依据;在使用阶段, 可以为提高装备的使用可靠性, 进行装备的改进、 改型、 新装备的研制和使用维修决策提供依据。
1.2 主要工作及流程
以下将以硬件FMECA 为例, 介绍其工作流程及各个步骤的主要工作。工作流程如图1 所示[4], 具体内容如下所述。
1.2.1 系统定义
图1 硬件FMECA 的步骤
作为整个FMECA 的基础, 它明确待分析的产品并规定其边界或者范围。分析产品的主要功能、 工作方式和组成;绘制功能框图, 描述各个组成部分所承担的任务或功能间的相互关系, 以及每个约定层次间的功能逻辑顺序、数据(信息) 流和接口。绘制任务可靠性框图, 描述产品整体可靠性与其组成部分的可靠性之间的关系。如果产品具有多项任务或多个工作模式, 则应分别建立相应的任务可靠性框图。
产品是分层次的, 例如:从上到下可以分为系统、 分系统、 设备、 分机或板卡、 模块和元器件等。需要规定FMECA 工作的约定层次、 最低约定层次和初始约定层次。约定层次是指当前组织实施的FMECA 产品的层次, 例如某设备;最低约定层次是指要求最低从哪一装备层次开始进行分析, 例如某模块;初始约定层次是指当考虑故障造成的影响或危害时所关注的装备层次, 例如某系统。
1.2.2 故障模式分析
故障模式是指故障的表现形式。例如:短路、 开路、断裂和过度耗损等[1]。
采用自底向上的工作方式, 从最低约定层次的每一种产品开始进行故障模式的识别。根据产品的特点, 确定其所有可能的故障模式。
1.2.3 故障原因分析
故障原因是指引起故障的设计、 制造、 使用和维修等有关因素[1]。
分析每一种故障模式的原因, 是为了分析可能的预防或纠正措施。导致故障发生的原因一般来自两个方面:1)产品自身存在设计、 制造等方面的缺陷, 或由于物理、 化学或生物等的变化过程而导致的故障;2) 来自于外部因素, 例如其他产品故障以及使用、 环境或人为因素等导致故障。
需要注意的是, 下一约定层次产品的故障模式, 往往是上一约定层次产品的故障原因。因此, 不同约定层次产品的FMECA 是相互联系的而不是孤立的。另外, 当同一故障模式存在多种故障原因时应全部列出。
1.2.4 故障影响及严酷度分析
故障影响是指故障模式对产品的使用、 功能或状态所导致的结果[1]。严酷度(severity) 是指故障模式所产生后果的严重程度[4]。
由于FMECA 的最终目的是为了分析初始约定层次的装备的可靠性, 因此, 在每个层次进行故障模式影响分析时, 不只是分析故障模式给所分析的产品自身可能造成的影响(局部影响), 还要分析对上一约定层次造成的影响(高一层次影响) 和对初始约定层次造成的影响(最终影响), 进而根据最终影响有可能造成的最坏后果的严重程度确定严酷类别。严酷度类别通常分为4 个类别, I 类:灾难的;II 类:致命的;III 类:中等的;IV 类:轻度的。
1.2.5 故障检测方法分析
故障检测方法是指在故障发生时检测故障的方法, 例如:机内测试(BIT)、 声光电告警或自动感应装置等基本检测方法。
1.2.6 设计改进措施分析
主要针对高严酷度(例如开展FMEA 时严酷度为I 类、II 类) 或高风险(例如开展FMECA 时风险指数为1~9) 的故障模式, 在确定设计方案时, 根据故障原因, 从设计、工艺、 元器件或材料选型、 试验和质量控制等方面, 采取降低故障发生的可能性或减轻故障后果的预防或纠正措施。
1.2.7 使用补偿措施分析
使用补偿措施是指对于采取设计改进措施后, 仍不能避免或减少故障对系统的影响时, 应在系统设计中采取的措施或操作行为, 例如:冗余、 保险装置、 使用备用设备或系统、 维修和人工切换工作方式等。
1.2.8 危害性分析
危害性(criticality) 是指对每个故障发生的概率及其危害程度的综合度量。进行CA 的目的是通过对每一个故障模式进行危害性分类, 从而全面评价所有可能出现的故障模式的影响。CA 是在FMEA 的基础上开展的, 通常其对象是严酷度为I 类和II 类的故障模式。
进行CA 的方法, 分为定性法和定量法两种[5]。
a) 定性法
一般在元器件或产品的故障率数据不能使用时, 用故障模式发生的频度来表示故障模式发生的可能性, 结合故障FMEA 中得到的故障模式的严酷度, 综合确定该故障模式的危害性等级。例如:在风险优先数法中, 将对于故障模式发生频度的定性描述, 如“非常高、 高、 中等、 较低、极低”, 进一步评分(OPR), 对故障模式严酷度进行评分(ESR), OPR 与ESR 的乘积即为该故障模式的风险优先数(RPN)。对装备的故障模式的RPN 进行排序, 确定对故障模式采取措施的优先顺序, 以及确定某些故障模式是否可接受。
b) 定量法
当有充分的故障率数据、 故障模式分布数据可用时,可通过确定的故障模式分布频数比、 故障影响概率和故障率数据, 来计算每一个故障模式的危害度值, 计算产品的危害度值。
2 FMECA 对通用质量特性的保证作用
除了装备的功能性会影响其可用性外, 通用质量特性同样对保证装备的可用性起着重要的作用。通用质量特性包括可靠性、 维修性、 保障性、 测试性、 安全性和环境适应性, 简称为“六性”。FMECA 作为一种有效的可靠性分析方法, 不仅对于可靠性的提高与保证具有不可或缺的作用, 对于其他通用质量特性的保证, 由于其能够直接地或间接地提供信息或数据, 因而同样具有重要的价值, 具体分析如下所述。
2.1 对可靠性的作用
FMECA 采用自底向上的方式, 按照产品层次逐层分析识别故障模式, 分析造成故障的根本原因, 分析故障模式对局部、 对上层和对最终系统造成的影响及危害性, 对于保证装备的可靠性而言是一项必不可少的基础工作。例如:FMECA 对于可靠性具有以下作用。
a) 找出产品在设计、 加工制造和工艺中存在的薄弱环节, 并提出改进措施, 从而提高装备的可靠性。因此,FMECA 过程本身, 就是对装备可靠性的提升过程。
b) 确定可靠性关键产品(或产品的组成部分)。确定和控制其故障对产品有重大影响的产品, 以及复杂性高、新技术含量高或费用昂贵的产品[6]。对列入可靠性关键产品清单的产品, 专门提出控制方法和试验要求, 实施重点控制。
c) 通过FMECA 识别出改进措施(包括预防措施、 纠正措施), 使用补偿措施, 可以降低故障发生的概率, 或者缩短故障持续时间, 或者减轻故障造成的危害, 提高装备的可靠性。
d) 及时的、 透彻的FMECA, 可使得装备的可靠性预计更加准确。
e) 基于FMECA 分析结果, 可以提高可靠性试验的效率和有效性。例如:基于待试验产品的故障模式和故障原因, 可以采用事件压缩或时间压缩方式[7], 设计出节省试验时间的可靠性加速试验方法。
f) 在生命周期的各个阶段, 产品发生故障后运行故障报告、 分析和纠正措施系统(FRACAS) 或技术归零时,FEMCA 分析结果可以为故障树分析 (FTA) 提供支撑。FTA 是一种自顶向下的分析技术。FMECA 提供了从最低产品层次向最高产品层次故障模式原因与影响效果的传递,FTA 自顶事件向下逐级递进展开分析时, 可以利用FMECA的故障模式, 并且进行故障排查时, 可以按照FMECA 的分析识别的发生概率, 优先从众多故障模式中选择发生可能性大的故障模式;进一步地, 进行问题复现、 改进效果验证时, 可利用FMECA 识别的检测方法信息确定检测方法;故障定位后采取纠正措施时, 针对FMECA 识别的根本原因采取措施, 以保证措施的有效性。
2.2 对维修性的作用
开展装备维修性工作是为了确保研制、 生产或改型的装备达到规定的维修性要求, 以提高装备的完好性和任务成功性, 减少维修人力及其他维修保障资源要求[9]。
维修工程师进行例行的和预防的维修性分析, 以延长系统的工作时间。无论例行的, 还是预防性的维修任务的分析方法, 都是以FMECA 结果作为基本的输入[8]。维修性关注的是装备可能发生的故障, 以及故障可能造成的影响或危害, 而这正是FMECA 的分析结果。
FMECA 提供产品的故障条件、 故障影响的严酷度、 故障检测方法(如果有的话) 和故障原因, 都为合理安排维修计划提供了依据, 既能保证装备的可用性, 又要兼顾维修成本及维修时间。
根据FMECA 报告, 针对一些具有高严酷度等级但是又没有检测方法的故障(称为隐藏故障), 作为维修工作的组成部分, 可以安排一些定期检验, 预防故障的发生。
另外, 在进行维修性验证试验时, 一般仅靠试验期间恰好自然发生的故障, 不能满足试验所需的故障样本量要求, 需要模拟故障。这时, FMECA 结果中故障模式及其相对发生频率, 成为故障模拟及抽样的依据。
2.3 对保障性的作用
FMECA 报告中的检测方法字段, 体现了故障模式的检测定位方式是由操作人员还是由维修人员来实施的。作为故障模式的补偿措施, FMECA 还可以提出一些任务前/任务后的检查要求。
据此, 保障工程师利用FMECA 结果, 可以准备故障检查清单, 执行任务前/执行任务后检查工作, 科学合理地安排装备维修所需的备品备件等。
2.4 对测试性的作用
测试性是指装备能及时、 准确地确定其状态(可工作、 不可工作或性能下降程度), 并隔离其内部故障的一种设计特性[10]。FMECA 可识别出可能的故障模式, 以及该故障模式能否被检测, 并进一步地给出用什么方法检测。一旦故障被检测到, 进行故障隔离, 可将故障定位到规定的范围。
装备的测试性关注的是故障, 主要通过故障检测率(FDR) 和故障隔离率(FIR) 两个指标来体现。
FDR 是指用规定的方法正确检测到的故障总数与故障总数之比, 用百分数表示。FIR 是指用规定的方法将检测到的故障正确隔离到不大于规定模糊度的故障数与检测到的故障数之比, 用百分数表示。FDR 和FIR 通过FMECA 的“故障检测方法” 和“故障率” 栏来计算。
装备测试性包括测试性设计、 测试性核查、 测试性验证试验和测试性分析评价等工作, 均以FMECA 结果为基础。
另外, 在进行FMECA 时, 已经识别并形成隐藏故障(dormant failure) 列表。测试性设计师应该根据装备的测试性要求, 综合考虑技术可行性、 经济成本、 故障模式发生可能性、 影响及危害性等因素, 确定是否需要对特定故障模式增加检测和隔离手段。
2.5 对安全性的作用
装备安全性识别潜在危险, 采取措施防止危险的发生, 或者降低危险可能带来的危害。采用FMECA、 FTA 等方法, 结合以往事故信息和相似装备的经验教训, 综合考虑硬件、 软件、 环境及使用与维修等因素, 识别装备在全寿命周期中可能存在的危险。只有识别了危险, 才能采取相应的措施。
当对某种不期望发生的事件(如以往类似装备发生的事故) 进行分析时, 往往采用FTA 方法。FMECA 以一种自底向上的方式进行, 为完成FTA 提供必要的定量的与定性的数据。可以对FMECA 识别的故障按照其对特定层级装备的影响进行分组, 以此检查FTA 是否覆盖了各种故障模式。
另外, 应从安全性角度对FMECA 结果中的隐藏故障清单进行审查。应根据装备所属行业、 用途和故障可能造成的后果等, 按照安全法规的要求或者具体装备的安全性设计要求, 在装备设计时尽可能地避免不可检测的故障。
2.6 对环境适应性的作用
为了验证装备在其寿命周期内预计可能遇到的各种环境的作用下能实现其所有预定功能和性能, 需要进行环境适应性试验。试验时, 需要对受试品进行功能性能和工作状态等检测或监视, FMECA 识别的故障模式及相应的检测方法, 可为这种检测或监视的完备性评价提供支撑。
另外, 当各类环境试验中受试品发生故障后运行FRACAS 时, FEMCA 可为故障分析、 定位和纠正提供必要的信息。
3 结束语
本文剖析了FMECA 的目的和主要工作内容, 进一步分析指出, FMECA 不仅对于装备可靠性的保证和提高具有重要的作用, 而且对于维修性、 保障性、 测试性、 安全性和环境适应性等其他通用质量特性, 其也能够提供必要的信息或数据, 同样有着不可替代的价值。因此, 虽然存在参与人员多、 工作量大和占用科研生产周期长等困难, 但考虑到其对于装备质量通用特性的重要支撑作用, 在装备特别是复杂装备的全生命周期中, 应更加广泛地开展FMECA 工作, 并充分地利用其分析结果, 提高装备的质量。至于如何提高FMECA 工作的效率, 提高分析结果的完备性和准确性, 则是今后需要进一步研究的问题。
参考文献:
[1] 中国人民解放军总装备部电子信息基础部.可靠性维修性保障性术语:GJB 451A-2005 [S].北京:总装备部军标出版发行部, 2005.
[2] CHEN Ying, YE Cui, LIU Bingdong, et al.Status of FMECA research and engineering application [C] //2012 Prognostics & System Health Management Conference(PHM-2012 Beijing):1-9.
[3] IEC.Failure modes and effects analysis (FMEA and FMECA):IEC 60812-2018 [S].
[4] 中国人民解放军总装备部电子信息基础部.故障模式、影响及危害性分析指南:GJB/Z 1391-2006 [S].北京:总装备部军标出版发行部, 2006.
[5] 国家国防科技工业局.航天产品故障模式、 影响及危害性分析:QJ 3050A-2011 [S].北京:中国航天标准化研究所, 2011.
[6] 中国人民解放军总装备部电子信息基础部.装备可靠性工作通用要求:GJB 450A-2004 [S].北京:总装备部军标出版发行部, 2004.
[7] 中国国家标准化管理委员会.产品加速试验方法:GB/T 34986-2017 [S].北京:中国标准出版社, 2017.
[8] CETIN Ebru Nihal.FMECA applications and lessons learnt[C] //Reliability and Maintainability Symposium (RAMS),2015:1-5.
[9] 中国人民解放军总装备部电子信息基础部.装备维修性工作通用要求:GJB 368B-2009 [S].北京:总装备部军标出版发行部, 2009.
[10] 中国人民解放军总装备部电子信息基础部.装备测试性工作通用要求:GJB 2547A-2012 [S].北京:总装备部军标出版发行部, 2012.
来源:FMEA达人