摘要:装备系统研制是不断解决技术问题的过程,故障归零是型号装备研制中的常态化工作;需要吸取问题与故障的经验教训,总结问题与故障带来的启示,提炼故障归零的共性规律与方法,并将相关教训、启示、方法进行传承与共享。
本文选自中国工程院院刊《中国工程科学》2025年第1期
作者:樊会涛,张同贺,徐琰珂
装备系统研制是不断解决技术问题的过程,故障归零是型号装备研制中的常态化工作;需要吸取问题与故障的经验教训,总结问题与故障带来的启示,提炼故障归零的共性规律与方法,并将相关教训、启示、方法进行传承与共享。
中国工程院樊会涛院士研究团队在中国工程院院刊《中国工程科学》2025年第1期发表《装备系统故障归零的一般方法》一文。文章立足多年从事战术导弹工程研制、较多参与装备故障归零的经验,以故障为核心,追踪故障从出现到解决的全过程,借助方法论的认识与应用,从故障的定义及价值、故障归零的思维方式、故障归零的方法等方面出发,总结了装备系统故障归零的共性规律与一般方法,论述了故障的4个价值、系统思维的4个基本概念、故障排查的4种常用方法。深入阐述了故障定位、故障原因与机理分析、故障复现设计、改进措施验证、举一反三、提炼准则与启示6个故障归零关键环节的具体做法,以期杜绝装备系统研制与使用过程中出现的重复性、简单性、低层次故障,明显减少因认识不足导致的高层次、复杂性问题,且在故障出现后能够高质量、高效率地完成技术归零。
一、前言
装备系统研制是技术层面不断成熟的过程,处理技术质量问题是型号装备研制中的常态化工作,发生故障时需进行技术与管理“双五”归零已是行业内的基本要求。然而,相关处理的效率、成效、效益,对于不同的人员、项目、机构往往是不同的。应当认真吸取问题与故障的经验教训,深入总结问题与故障带来的启示,尽量提炼故障归零的共性规律与方法,并将这些教训、启示、方法进行传承与共享。
本文针对战术导弹这一高度复杂系统,根据笔者多年从事导弹系统故障归零的经验,以故障为核心,追踪故障从出现到解决的全过程;基于方法论的认识与应用,从故障的定义及价值、故障归零的思维方式、故障归零方法等角度出发,总结型号装备研制故障归零的共性规律与一般方法,阐述故障归零关键环节的处理方法。梳理和总结相关内容,期望杜绝型号装备研制与使用过程中出现的重复性、简单性、低层次故障,明显减少因认识不足导致的高层次、复杂性问题,在故障出现后高效地完成技术归零,也可为相关行业的装备系统故障归零提供理论和方法参考。
二、装备系统故障的定义与价值
故障指设备、产品、系统在使用中出现,因某种原因丧失执行规定功能或不符合规定性能的偶然事故状态。可见,故障有两个本质特征:出现故障的对象是设备、产品、系统,故障现象是不能执行或完成规定的功能或性能。
与设计师的主观意愿无关,装备研制过程中不可能完全杜绝故障。在故障发生后,应积极开展故障归零工作,需要端正态度、激发斗志,不能情绪沮丧、信心缺失。有必要充分挖掘故障的价值,支持开展故障归零工作,提高故障归零的效率;从故障中吸取经验,不断提升设计能力和技术水平,以在后续的设计中“由此及彼、由表及里”地采取系统级预防措施,从发生故障后被动应对式归零转变为日常式预防,杜绝同类故障的重复发生。在笔者看来,故障的价值主要包括4个方面。
一是发现新事实、提出新认识。当一型装备完成设计后,装备在工作中的所有表现都应当与设计师的预先设计相吻合;如果出现了故障、偏离了预先设计的规定,就表明出现了新现象。许多新认识来自于新现象,新现象的出现有助于设计师发现设计方案中存在的缺陷和不足,从而提出新的认识。
二是开展新设计、积累新知识。出现故障的原因有很多,解决问题的途径也有很多;可通过加强管理、验证、检验等方式暂时解决问题,但更重要的是通过新设计、落实新工艺来彻底解决问题。故障的发生提供了开展新设计的最佳机遇,促使设计师重新审视并改进原有设计方案,追求从根本上避免故障的再次发生,实现故障“真”归零。再将故障归零过程中的新认识加以总结,提炼为行业内的新知识,促进行业发展质量提升。相关新知识可以是工程理论突破、新的约束条件设定、新工艺落实、新工艺禁用、研制流程变更等,内涵较为丰富。
三是完善新准则、避免新错误。每个企业都要在行业内构建自身的核心竞争力,需要具备完善的装备设计体系,不仅包括已广为传播的科学知识,更重要的是以工程经验为标志的核心内容,如被实践证明可行 / 不可行的准则。完善准则有多种渠道,重要渠道之一即为故障归零启示的积累。对故障归零过程中积累的新知识进行显性化和再提炼,形成新的设计准则,指导设计师在后续其他装备设计中不再发生同样错误;同时通过举一反三,使类似的错误不再发生,最大限度地发挥故障归零的价值。
四是提升新能力、建立新规章。复杂装备系统的研制过程必然面临各类问题、出现各种故障,解决问题、排除故障的过程就是提升设计师及设计团队能力的过程。应当将故障归零视为提升设计师个人与集体能力的机会,而设计师队伍的设计能力正是企业的核心竞争力。国防工业每年出现的各类质量问题中,超过50%的是低级、低层次技术问题或者管理与责任问题,这些故障归零时不需要高深的科学知识,而需要严谨的科学态度;不需要深刻的理论指导,而需要精细的规则落实;不需要准确的数理计算,而需要遵从常识与规律。因此,许多技术问题在故障归零时都需要进行管理归零,以建立新规章、避免类似问题重复发生。
值得指出的是,技术归零、管理归零是质量问题归零的两个重要方面,也是相辅相成的:前者主要关注问题的技术层面因素,即找出问题的直接原因并采取措施加以解决;后者从更宏观的角度出发,关注问题背后的管理层面因素,进而确保问题得到更全面、更有效的解决,也可通过改进管理流程、加强过程监控、采取预防措施,从程序上预防问题的再次出现。
三、装备系统故障归零的思维方式
(一) 提升对故障的敏感度
故障归零的根本目的是消除认知范围内故障再次发生、降低未认知故障发生概率。任何故障的发生都不是突然的,必然有着潜在根源以及初期表现形式。设计师需要提高对故障的敏感度,及早发现装备运行过程中的各种异常,在“量变阶段”“流程前端”即可准确地防微杜渐、识别故障,杜绝故障演化和进一步的危害。
一是要吃透技术、明晰状态。无论是自主创新的技术,还是引进研仿的技术,设计师都应在客观条件许可的情况下,尽最大可能进行实践和消化,以全面认识装备并掌握技术,实现设计源头、工艺源头“零隐患”的目标。对装备研制和生产全过程的设计状态、工艺状态、试验状态进行有效控制,在产品研制和生产各阶段进行严格的技术状态管理;不得随意变动成熟的设计、工艺、测试状态,确需变更的,必须遵循“论证充分、各方认可、试验验证、审批完备、落实到位”的原则。
二是重视数据、排查隐患。数据中含有关键信息,装备性能的微小差异往往会在测试、试验数据中有所体现,设计师需提高对试验数据的敏感性。装备研制各个阶段的试验数据可用于纵向对比;采用相似技术的不同型号装备,可进行试验数据的横向对比;对于超出装备成功数据包络的参数,需进行理论分析、地面试验考核,给出是否存在风险的明确结论。
三是做好“双想”、预防风险。“双想”指回想前阶段工作中是否存在问题及隐患,预想下阶段工作中可能出现的问题及隐患。通过“双想”,及时分析并识别隐患的影响范围与程度,制定相应的控制措施与应急预案;组织讨论和审查,确保针对每项设计内容均采取有效措施、形成闭环,达到降低故障发生风险的目标。
(二) 系统思维的基本概念
科学认识世界的一般思维入口有4个:能量、空间、时间、信息。故障归零类似,如“技术五归零”中的定位准确、机理清楚、措施有效3个核心步骤,都是围绕上述4个基本概念展开的。虽然相对论已将时空作为整体来看待,认为物理事件发生在四维时空簇里,但是绝大多数装备设计涉及的时空内物理事件,仍可由牛顿力学理论进行解释(误差可以忽略),具有简单明了的特点。因此,分别从能量、空间、时间、信息4个基本概念出发,探讨与故障归零之间的内在关联,极为必要(见图1)。
图1 系统思维的4个基本概念
能量就是物质,也是物质运动的量化转换,不同物质的运动形式对应着不同的能量形式。装备设计中的能量概念可从能量守恒、能量转换两个方面来理解。能量守恒指在封闭系统里能量既不会凭空产生,也不会凭空消失,只会从一种形式转化为另一种形式,或者从一个物体转移到另一个物体;在转化或转移过程中,总能量保持不变。从能量角度思考故障有价值,因为能量转换会带来作用方式的变化,而相同能量的不同作用方式通常导致不同的结果。
装备设计中的空间概念可从3个方面来看待。① 空间是物质存在的形式,即以结构形式来表现空间,装备设计的首项任务就是大致规划设计对象的结构空间、空间大小、误差分配、形状变化等。② 空间是物质运动的场所,从运动学角度看飞行器设计就是不同坐标系之间的转换与移动。坐标系一般有地球惯性坐标系、地理坐标系、地平坐标系、弹体坐标系、位标器框架坐标系等(以及数据信息处理所需的坐标系转换)。③ 空间是信息波动的范围,多数物理量及其关系都可通过(由笛卡尔坐标系确定的)二维平面空间来描述,也有一些物理量通过(由笛卡尔坐标系确定的)三维立体空间来描述。突破空间是用来衡量三维空间的思维惯性,可将信息与空间紧密联系起来。在空间概念上,所有信息都存在动态范围,控制信息并为信息量合理分配空间,可使信息始终保持在适当的状态。当装备系统出现故障时,采用空间的概念去分析各种信息的变化与约束,有助于快速发现问题。
建立时间概念的基本目的之一是对时,即给各种事件的先后次序以“同时性”的定义,为各个人、各个事件、各种信息之间建立横向联系。建立时间概念的另一个基本目的是计时,即记录各个事件、各种信息持续过程的纵向长短与横向时序,因而时间被视为“运动的存在形式”。考虑到合适的时间尺度是描述事件的本质要素,因而对于不同的事件需要采用不同的时间精度去测量,但不是精度越高越好,否则不仅成本高昂,还会掩盖事件的本来形貌,甚至导致功能紊乱。
经典观点认为,信息是用来消除随机不确定性的“东西”;信息就是信息,既非物质,也非能量。信息不是物质,尽管信息与物质关系密切;物质本身是否携带信息、携带何种信息,不是由物质决定的。同一个事件、同一种物质,因不同的人解读就会具有不同的信息,也因不同的环境和条件变化产生不同的信息。在多数时候,信息来自关联关系。可以认为,信息是物质运动及其关联关系的意义与价值。系统的功能性能是由信息来定义的,系统有序性的形成与破坏、建构与解构,通常可以表现为信息的有序或失序。当系统发生故障时,可以通过系统的信息失序来快速定位故障。
(三) 常用思维方式
思维方式类型众多,常用的有正向思维、逆向思维、发散思维、聚合思维。一些思维方式在应用于正向设计、故障归零时并无不同,而另一些思维方式则存在明显不同。例如,正向设计更多采用正向思维、统一思维、取真思维,故障归零倾向采用逆向思维、矛盾思维、排假思维等。
正向思维从原因或前提出发,寻找结果与结论;逆向思维与之相反,从结果或结论出发寻找原因与前提。故障归零采用逆向思维,即从已经出现、为设计预期之外的结果出发,寻找造成结果的前提条件。在正向思维占主导地位时,很难找到故障部位,这是因为如果正向设计能够发现缺陷,通常在设计过程中就会加以解决;换言之,已经在设计中认识到的问题不应该再次出现,否则就会发生责任故障(而不是认识不足产生的故障)。在多数情况下,故障归零交替使用正向思维和逆向思维。
发散思维、聚合思维是一对有逻辑联系的思维方式。无论是正向设计还是故障归零,抑或是解决其他新面临的问题,设计师总是首先使用发散思维,即大胆创新与假设,再采用聚合思维,即小心求证与落实。
(四) 故障排查常用的思维方法
1. 排除法
排除法是遇到异常事件时最常用的方法,也是最符合逻辑、效率最高的方法。应用排除法时注重以下内容:从结构可分解的角度进行排除,从功能与性能的角度进行排除,从各种信息及其内在逻辑关系的角度进行排除,从客观条件(如设备、环境、相关系统等)角度进行排除,从人的因素角度进行排除。在明确待排除的因素后,可采用两个方法来达到排除目的:根据因果律进行逻辑演绎,推导出该因素与故障现象之间是否存在必然联系,称为理论分析法;采用试验验证该因素存在时故障现象是否会发生,称为试验验证法。
在某型号导引头研制初期进行振动试验时,探测信号噪声急剧放大两个数量级以上,出现了典型的动能转变为电信号的耦合故障。类似故障的原因有电磁兼容问题、探测器硬件问题、位标器故障等,很难从理论分析角度阐明。为此制定了排除验证方案:开展电磁兼容试验,排查薄弱环节,无果;开展探测器振动试验,无果;开展位标器单独振动试验,无果;开展电子舱单独振动试验,无果;考虑到电子舱内共有4块电路板,为确保安装坚固又在舱内添加了隔离支撑板,在振动过程中电路板空间位移可能较大,分布的电容或电感可能与位标器的弱信号耦合产生不良后果,决定将隔离支撑板材料由导电的铝板更换为绝缘的胶木板,故障现象消失。
2. 对比法
对比法细分为条件不变法、条件变化法、互换法。① 条件不变法主要在全部条件不变、制定好增加测试信息的情况下进行重复试验,对比检验故障现象的可重复性。重复性试验获得的增量信息对认识问题的性质具有重要价值,没有信息增量的重复基本上是无价值的。开展条件不变的重复试验受到约束:尽可能保护现场,保证环境条件不变;尽可能保护产品,在试验前后故障产品的技术状态不变。② 条件变化法主要在其他条件不变的情况下改变其中1个条件,验证故障产品功能与性能随变化条件而改变的规律性,再与故障现象进行对比。应用条件变化法受到约束:在不受其他条件限制的情况下,每次只改变1个条件进行对比,以便准确判断条件与现象之间的联系规律;条件改变既不受原设计范围的限制,也不能损坏产品,以便摸清产品的能力所在;条件变化的规律与产品面临的真实条件之间具有真实性,如温变速度与时间等。③ 互换法主要在相同环境条件、相同技术状态下进行产品不同样本之间的对比。互换具有多种层次,如在同一内舱段更换导引头、飞控设备、发动机,不同舱段之间互换,更换飞行器、发射装置甚至载机等。互换法是提高故障归零效率的方法,不是认识故障机理的方法。
生产线上出现问题后最常用的方法是对比法,这是因为生产线相较研制更加追求效率,从资源的角度也更具条件,从技术状态的角度一般不涉及状态变更。有时甚至将不同零件的互换组装定义为可许可的正常工艺。实际上,生产线上用真实零组件作为检测手段对互相配合的其他零组件进行测量,是最为典型的对比法应用。
某演示验证项目在外场进行地面发射试验,在振动试验、-20 ℃温度试验完成后进场,第三天上午在外场开展测试时出现了自检不通过,而装备之前仅进行了跨城市转运并在外场库房内(温度约为-10 ℃)放置了1个晚上。分析认为该故障应由环境条件变化引起,决定将装备放置于有暖气的房间内再检测产品状态;2 h后自检恢复正常,故障定位于电容低温特性不满足要求。装备在温度为-10 ℃的厂房内放置1个晚上后测试出问题、而在-20 ℃温度试验中却不出问题,原因是进行-20 ℃温度试验时装备仅进行了2 h的保温,保温时间不够造成装备内部温度没有达到-20 ℃,也就无法实现通过温度试验发现装备设计缺陷的目的。
3. 因果律分析法
因果律分析法坚信一切现象皆有原因,一切现象都是在给定前提条件下演化的结果。因果律是伽利略 ‒ 笛卡尔 ‒ 牛顿科学方法体系的核心,即1个可观察事件的发生,背后必有至少1个动因。在工程研究中,装备的数量通常较多,故障结果是概然性的;但对于每次出现的问题或故障,可以坚持必然性因果律。尽管可能存在受条件限制而找不出真正原因的情况,但这并不是否认原因与结果之间的必然性关系。而且,坚持因果律思维仅是坚定找出问题的信念,运用因果律迅速找到问题的根源取决于对因与果内在机理的认识。实际上,故障归零时将伴随事件说成因果事件、倒因为果的错误认定等经常发生,特别需要立足科学素养进行辨识和确认。
4. 质量互变分析法
质量互变分析法是故障排查的常用方法,认为事物从量变到质变、从质变到量变互相转化,遵从一定的法则,质不仅是量的堆积,量也不仅是质的分解。工程上通常需要通过质与量的综合分析才能确认问题的性质。质是要把握的目标,只要不发生质的变化,工程上一般是可以接受的;量是作出判断的依据,量的大小是否产生质的影响是方案设计时反复权衡的对象。一旦发生质的变化,结果非常直观,很容易认识到,但量变的异常在没有引起质变前往往会被忽视,因而保持对量变的敏感性是预防故障的重要手段,也是故障排查时判断定位是否准确、机理分析是否清楚的重要依据。
某型装备在系统联试过程中出现突然掉电现象。经查,突然掉电是因供电继电器损坏造成的,而继电器损坏的失效机理定位于高压击穿。在故障复现过程中,高压击穿确实能复现继电器损坏的故障,但电气系统设计中没有足够高的电压(可导致继电器的击穿),在发生故障时也没有监测到高压信号。该故障多次出现,且通电次数越多的装备越容易出现,似有积累效应。后续,采用带宽更高的示波器进行监测,发现上电时刻出现了高频震荡,表明该故障确实是1个从量变到质变的过程。继电器的高频震荡击穿形态与高压击穿形态一致,也是行业内首次认识到的故障现象。
四、装备系统故障归零的方法及流程
“故障五归零”是行业内出现故障后处理问题的标准方法,具有逻辑严谨、行之有效的特点;主要涉及故障定位、故障原因与机理分析、故障复现设计、改进措施验证、举一反三、提炼准则与启示等6个主要环节。尽管相关方法已有成熟运用,但各个故障归零环节涉及的具体方法论及其应用要点,归纳总结甚少。
(一) 故障定位
当装备出现非预期的运行状态时,首先需要明确是否发生故障,即故障确认是故障定位的第一步,快速定位故障的原因和位置是解决问题的关键。物理现象、残骸、数据是装备故障分析的主要依据,故障树分析是挖掘故障原因的有力工具。
故障发生时可能伴随各种现象,分别针对这些现象开展物理分析、数学分析、综合分析,合称现象分析。① 物理分析在故障分析时通常率先开展,通过因果律定性分析,找出现象与原因之间的机理层面联系,尽快框定引发故障的主要因素,使故障归零工作明确主攻方向。② 数学分析主要包括统计概率分析、物理层面的定量关系分析。统计概率分析在故障现象可重复发生时尤其有效,主要通过统计故障现象发生时伴随条件出现的频次,寻找条件与现象之间的关系,然后以确认的条件为前提,分析故障现象的内在机理;开展统计时,尽可能量化因素,寻找量变与质变之间的平衡点,最终确定可能造成故障的主要条件因素。③ 综合分析即系统分析,不能停留在已有现象的物理和数学分析上,还要从全系统的角度出发,设想并推演更多条件变化情况下可能出现的其他现象,也需开展虚拟仿真分析、系统级试验分析,以便获得更多的数据与现象支持。
残骸是最宝贵的资源之一,其价值体现在3个方面。① 确定故障部位。仔细检查残骸,可以确定故障发生的具体部位,如电路板、机械部分、其他部件等,有助于缩小故障定位的范围,深入分析故障的原因。② 判断故障性质。分析残骸并判断故障的性质,如短路、断路、其他性质等,有助于了解故障对装备的影响程度,快速制定对应的解决方案。③ 推测故障原因。观察和分析残骸,推测故障的原因,如残骸表现为装备遭受物理损坏,即可推测设备可能由于使用环境恶劣而发生故障。
数据是支持故障定位的宝贵资源,数据分析是故障定位中最基础的工作。在收集残骸的同时,注意收集相关的数据,尽量把看似无关的数据收集完整。系统的单个功能或性能往往是数个分系统联合正确工作的结果,因而单个故障现象通常通过多个数据一起表现出来。准确判断哪些异常数据是原因、哪些异常数据是结果,既要立足对装备系统工作原理的深刻认识,也要灵活运用专业知识。数据的统计分析、数理分析是工程上常用的分析方法,尤其在低信噪比探测系统中统计分析占有重要地位。在开展统计分析时,将已获得的表观测量数据精准转换到对应维度上进行分析,对最终确定故障、认识机理具有重要影响,有时甚至是决定性的影响。例如,常用采样记录的数据是电压信号,有时需要转换到功率维度来认识,有时又需要转换到能量维度来认识,在问题判断时应选取适宜的物理量。
故障树分析已是成熟方法,理论基础完备,自20世纪60年代投入应用后取得了极大成功;通过底事件、顶事件之间的机理联系,贯穿现象分析、残骸分析、数据分析。故障树分析的正向设计流程为:选择合理的顶事件→建造故障树→故障树定性分析→故障树定量分析→确定设计上的薄弱环节→采取措施提高系统可靠性。故障树分析的故障归零流程为:确认故障顶事件→建造(完善)故障树→故障树定性分析→故障树定量分析→确定故障底事件与原因→采取措施提高系统可靠性。通过故障树分析,选出主要故障模式,再简化形成只包含主要故障模式关系的故障树,据此开展完整的机理分析;如果主要故障模式不止1个,应分开详细描述。绝大多数故障都是单点故障,两点或多点故障的概率不超过1%。
(二) 故障原因与机理分析
查找故障原因首先要秉持科学的态度,开展故障机理分析也需有科学的常识和清晰的解释。机理是科学问题,在进行故障树分析时已经针对各种故障模式开展了机理分析,只是相关机理分析仍处于假设状态,尚不明确且不唯一。通过可控的故障复现试验检验后,故障定位趋于明确,故障发生的机理将得到清晰、直接的科学描述;若故障定位过程简单而机理不简单,就需要在机理分析中给出详尽的描述;若故障机理在定位分析过程中已经有较清晰的表述,则机理分析仅需简明、准确的结论性内容,清楚表达科学上的因果关系即可。在应用科学研究中,极少存在机理解释超出科学知识范畴、需要新的科学概念的情况;为了通过故障归零达到学习与提升目的、将经验知识积累起来变成显性知识和组织知识,除了总结科学认识,还需围绕原因进行归纳。
查找故障原因应基于科学的方法。在进行故障原因和机理分析时,需要做到物理概念正确,“眼睛向内找问题、刀口向里找原因”,敢于主动暴露问题、自我剖析原因。故障原因分析方法通常分为设计准则分析、条件分析、流程分析等[15]。① 设计准则分析时首先从设计与工艺出发,判断是否由于设计师未能遵守本专业设计准则而造成故障。设计准则包括性能设计、通用质量特性设计、工艺设计。在多数情况下,故障与需求定义不明确、原理设计不精细、工艺设计不完善相关,原因在于现有设计准则未得到彻底遵守,没有认识到新知识、新机理。这是提炼一条或多条新准则的时机。② 条件分析以故障为核心,按照“故障零部件 ‒ 组件 ‒ 分系统 ‒ 系统 ‒ 生产制造环节 ‒ 试验与工作条件”的顺序,从同心圆的圆点向外发散,列出影响试验结果的各种因素;再从同心圆的最外圈开始分析排查,确定故障发生时的前提条件,分析前提条件与故障之间存在因果关系的可能性。条件排查集中在以下方面:环境条件,如气候环境、电磁环境、动力环境等;产品状态,如技术状态、批次管理状态、质量问题处理状态等;基础条件,如设备状态完好性、工艺文件规范性、数据记录可信性等;人员因素,如加工人员、装配人员、测试人员、使用操作人员的能力与变化情况。③ 许多故障源自流程不规范或者未规范地遵守流程。例如,制造流程不科学、不规范、对人员素质依赖度高,造成制造产品的一致性与稳定性不佳;返工流程不完备,想当然地等同于首次制造或者随意增减工步,带来制造缺陷;试验流程不真实,过于追求效率而没有严格保持科学性,导致潜在问题不能暴露;检测流程前松后严,忽略有些组件的部分性能在系统状态下已经不可能被测试覆盖,存在验证不充分的隐患。
(三) 故障复现设计
故障复现指在故障归零过程中为了定位和解决问题,针对性地设计故障复现试验,尝试重现已发生的故障或错误的过程。故障复现是“技术五归零”中的重要环节,与故障重复是不同的概念。故障重复指在原因不明的情况下同样的故障稳定重复出现或不稳定多次出现,这种重复对故障归零没有价值;只有故障重复时能够增加新的监测信息才有价值。可自然再现、不可自然再现的故障,在设计师不理解机理的情况下都不属于设计能力控制下的再现。需要采取针对性措施,使主要故障模式在思维主导下变成必然事件;根据认定的主要故障模式,开展故障再现设计试验。在假定主要故障模式成立、机理清楚的情况下,开展故障复现试验时能够复现故障,能够倒推主要故障模式假设的正确性。
故障机理分析只有在得到试验支持后才视为可信。故障复现首先是机理性复现,机理性复现可在任何解释故障现象的对象上实施,包括临时设计的专用故障复现产品。故障复现在真实产品上实施是常态,不在真实产品上实施一定面临成本、方法可行性、效率等因素的制约;在真实产品上复现故障时,一般首先在组件级产品上实施,既有降低成本、提高效率的考量,也有组件级的故障一般与系统其他部分没有耦合关系的原因。在系统级开展故障复现,虽然成本高、效率低,但仍是优先选择,这是因为涉及故障现象的各部分是紧耦合的,或者系统与设备、系统与环境、系统与条件紧耦合,故障复现的置信度最高,可使故障归零过程“少走弯路”。
故障复现设计的根本在于“真”试验,复现真实环境是故障复现可信的前提条件,而构造真实的试验环境是极为困难的。例如,在空中发射试验中发生的故障,在地面通常很难复现空中装备工作的实际工况。某型号装备的空中折断故障归零“走了弯路”,地面不好复现故障是重要原因之一。在认识到电路板可能是装备空中烧毁的原因后,进行了故障复现试验;在地面采用热风枪(约700 ℃)吹电路板可以复现空中数据,但用时约为20 s,与空中时间(1~2 s)对不上。该故障复现试验没有真实模拟实际工况:航空发动机尾流的余温(2000~3000 ℃);航空发动机尾流含有的多种粒子带有热容,而空气基本上没有热容;有些粒子具有导电性,更容易破坏电路板的拓扑结构。最终采用真实发动机点火模拟空中过程,才完好复现了相应故障。
在主要故障模式成立、机理清楚的条件下,由于控制了盲目尝试范围,故障复现通常更为高效,但存在依赖事先了解故障的局限性。如果故障模式或机理不清楚,则复现可能失败,此时需重新审视故障假设,采取更广泛的故障排查策略,重新设计故障复现试验。
(四) 改进措施验证
故障改进措施需要有效、充分、无害,三方面的要求逐步提高。在故障出现后,通常需要立即判定问题的性质,科学评估故障产生的后果与危害,以便合理决策正在进行中的工作安排。工程项目涵盖质量、进度、费用3个维度的目标,任一维度出现的问题都应得到高度重视;即使技术层面出现故障,也不必然导致停工改进,而是根据问题的性质及危害程度作权衡。因此,故障发生后整个工程项目在风险可控或可接受的情况下许可现场采取临时处理措施,较为常见。现场采取的措施必须有效,但因现场采取的方案多是清楚机理后的简单方案,有效性验证可以相应简化,但要对有效性验证的充分性、采取措施的副作用进行反复质疑与评估。
只要机理清楚、原因明确,一般情况下改进措施都具有良好的针对性。然而,仅是原理正确并不充分,还需要采用试验数据来答复相关措施的有效性,通常包括数字虚拟验证、实物试验验证。验证试验主要分为:数字仿真(含虚拟样机、快速原型)验证、分系统级验证、系统级验证、静态验证、动态验证、室内验证、户外验证、地面验证、环境适应性验证、能力边界摸底验证、空中验证(含空中系留、空中靶试)等。验证试验的目标包括验证解决措施的有效性、验证解决措施的副作用,在开展验证试验时需全面观察和记录系统的数据,而不只是与措施有关的数据。开展验证试验,需要确认系统技术状态的正确性、参试设备的完备性、试验方法的合理性、环境条件的真实性,最终明确措施验证的充分性和有效性。
验证措施的有效性可称为“闭区间”验证,目的明确且范围有限,方法合理可行,较容易实施。验证措施的无害性可称为“开区间”验证,如复杂软件更改后要证明改动部分的无害性,“域外”可能性不可穷举,加大评估风险和验证难度。对于故障纠正措施,偶尔会出现机理分析与认识不是特别清楚、需采取多方联合施措的情况,需要谨慎确认此状态下措施的有效性与无害性、验证的充分性。
(五) 举一反三
故障都是在规定条件下发生的,但设计改进不能采用判例法来完成,因而需要对故障进行举一反三。在开展故障归零举一反三工作时,设计师一般能做到检查型号装备的部件内是否存在类似问题,但多数情况下也仅如此,这对认识故障的危害及价值是明显不够的。需要结合故障的性质,开展不同层次的举一反三工作。
一是在部门内的型号线上通报故障及其归零情况。这一层级是部门内的型号线级,开展举一反三工作的目的是:已出现的问题得到归零,消除任务因故障未归零而受到的影响;促进型号线梳理部件的技术质量状态,排查存在此类问题或隐患的可能性并尽早消除;引起型号线全体人员的警觉,确保不再出类似问题。
二是在部门内的不同型号线之间通报故障及其归零情况,要求其他型号一起开展举一反三工作。例如,某型号装备出现了电源模块故障,需要至少在部门内通报到各个型号线,检查此模块是否有应用、是否同批次、是否有类似问题。开展这一层级举一反三目工作的目的是:促使部门内的故障信息共享,一起借鉴解决问题的经验,共同吸取得到的教训,避免其他型号线因重复出现相同或类似问题而付出不必要的代价。
三是在本单位范围内开展举一反三工作,至少应在本单位内一定级别的层次上建立故障通报制度。针对不同类型、不同级别的故障,分别给出红、橙、黄、蓝、绿等级的警示色标;当故障问题在橙级以上时,强制要求各其他型号线给出书面形式的举一反三自查报告,阐明是否有类似问题或隐患。开展单位层级的举一反三工作,需对出现的故障性质进行分类,避免过多付出成本、收益明显不匹配的情况。在本单位内开展举一反三工作,利于从专业角度持续积累经验知识。
四是对于在行业内造成重大影响的故障,如果故障发生的机理或原因具有共性,应在行业内开展举一反三工作。装备管理部门经常性发布质量案例与警示,要求开展质量自查与互查,不定期统一安排的质量月活动等,都可视为举一反三工作内容。例如,航天系统已将集团内开展举一反三活动制度化,如某款元器件发生了质量问题,集团内各型号装备都要检查此型号的该批产品使用情况,如果采用需要复查确认甚至更换;某型数字信号处理开发环境提供的字符串函数运行不稳定,导致软件编译后产生了极小概率(
(六) 提炼准则与启示
传统的故障归零在完成举一反三工作后即结束。然而,现有的举一反三机制对获得的经验教训长效化作用不明显,还需开展每个故障的启示总结工作。在总结启示时,多数情况下原因比机理更重要。通过总结故障启示,将经验知识理论化、隐性知识显性化、个人知识组织化,确保知识积累、知识传承、知识管理、知识共享制度化,不断积累具有自主知识产权的设计准则。
没有总结就没有提高与升华。没有启示总结,故障的多数价值就无法实现。发生的故障如果没有违反现有设计准则,则一定能够提炼出来一条或多条新准则;只有提炼新准则、完善新规范,才能增强新能力、避免新错误、消灭新故障。在复杂系统工程的研制过程中,故障是不可能完全杜绝的,但已经发生过、低层次、重复性、常识性的故障必须杜绝。这些故障一旦发生,必然会付出高昂代价,而又不产生任何价值。在遵守设计规范、落实管理要求外,总结好故障启示是必经之路。
通过准则的提炼和启示,设计师队伍将在技术和管理双归零之外做到“思想归零”,进而在后续装备设计中更加谨慎,实现由应急处置向预防发生的转变,最大限度地避免同类故障的再次发生。通行的故障归零流程如图2所示。
图2 装备系统故障归零流程图
五、结语
装备研制是技术上不断攻坚克难、走向成熟的过程,处理技术质量问题是装备研制过程中的常态化工作,在发生故障时快速准确地完成故障归零是每个设计师追求的工作目标。本文解析了装备系统故障的定义及其价值,明晰了故障归零的思维方式,结合工程应用实践论述了故障归零的方法及流程,对于各类重大装备系统研制与应用具有共性和基础性参考意义。相关内容源自笔者多年从事战术导弹工程研制、较多参与装备故障归零的经验,通过归纳总结阐明了从问题和故障中发现规律性认识、获得可借鉴性启示等内容,可视为“经验知识理论化、个人知识组织化、隐性知识显性化”的具体实践。
实践方法的理论化难度很大,加之各类装备系统在共性的基础上仍有鲜明的个性,本研究仅为理性探讨和初步构建,仍然不显完备。然而,若相关内容能起到抛砖引玉的作用,启发行业内参与故障归零的设计师和管理者去积极思考和深入实践,也就达到我们的研究初心了。
注:本文内容呈现略有调整,若需可查看原文。
作者简介
樊会涛
飞行器设计专家,中国工程院院士。
主要从事航空武器装备研究。
注:论文反映的是研究成果进展,不代表《中国工程科学》杂志社的观点。
来源:中国工程院院刊