【导语】我们对人的很高评价是“靠谱”,刚开始接触一个新朋友的时候心里犯嘀咕的也是这个人“是否靠谱”。对于系统,我们同样需要进行类似评价,即对其进行可靠性评估。“漫谈系统”广播节目第二季中李仲飞副理事长聊过系统性金融风险,第三季中冯耕中副理事长聊过产业供应链的安全问题,这其实都是金融系统和供应链系统的可靠性问题。第三季节目中,第四届系统科学与系统工程青年科技奖获得者吴俊老师还聊过复杂系统的瓦解问题,这其实是系统可靠性的反面。本期“漫谈系统”广播节目我们邀请到了第六届青年科技奖获得者、西南财经大学的肖辉老师跟大家正式聊一聊系统可靠性问题。对于与日常生活密切相关的电力、航空、交通、金融等系统,它们的可靠性直接关系到我们的生命财产安全。因此,如何快速、有效、准确地对这些系统的可靠性进行评估与分析,降低系统故障风险,保证系统稳定运行具有极其重要的现实意义。那么在系统科学家的眼里可靠性如何定义,又有哪些常用的指标科学衡量系统的可靠性呢?让我们且听肖老师给出权威解答。

听众朋友们,大家好!我是西南财经大学的肖辉老师,今天的“漫谈系统”,我想与大家聊聊系统可靠性。

在日常生活中,想必大家都听过可靠性这个词,小到电子产品的保修,大到航天载人飞船的发射与维护,都与可靠性密切相关。通常我们说某系统可靠,意味着它能够正常工作。准确的说,系统可靠性是指在规定的时间内和规定的条件下,系统完成规定功能的能力。系统可靠性的定义包含三大“规定”要素:“规定条件”、“规定时间”和“规定功能”。“规定条件”可简单理解为系统工作时的环境条件,例如同一型号的汽车在高速公路和在崎岖的山路上行驶,其可靠性表现就大不一样。“规定时间”是指系统规定的任务时间,随着系统任务时间的增加,系统出现故障的概率也将增加。“规定功能”是指系统规定的必须具备的功能及其技术指标,例如无人驾驶汽车必须具备安全性和稳定性。

随着科技的发展,系统结构更加复杂。系统越复杂,意味着其承载的信息量越大,重要性越高、功能越强,一旦失效所造成的损失是巨大的,甚至是灾难性的。

以我们日常出行的汽车为例,大家评价汽车的常用描述是发动机的“动力强不强”、悬架的“支撑足不足”、刹车“能不能刹得住”,而在汽车的设计生产制造过程中,这些特性都会被量化为对应子系统的可靠性进行评估,汽车出厂前,还会反复试验确保汽车的系统可靠性。如果不注重汽车各部件和整个系统的可靠性分析,将会带来非常严重的损失。

比如在2009年曝光的某品牌汽车“刹车门”事件中,仅仅是一个密封胶圈的设计有问题,造成的影响就波及到了多个功能板块,降低了汽车的可靠性。由此可见,忽略汽车的可靠性研究不仅对品牌自身会造成巨大的经济损失,还会对消费者的生命安全造成巨大隐患。

对于与我们日常生活紧密相关的燃气管网系统,其可靠性分析与研究尤为重要。作为保障居民正常生活的基础设施,燃气管道布线紧密,埋线环境多样,整个系统结构错综复杂,任意一处管道出现故障,对整个系统可靠性的影响往往是“牵一发而动全身”,造成的损失不可估量。2021年湖北十堰“6·13”燃气安全事故的原因就是天然气中压钢管严重锈蚀破裂,泄漏的天然气聚集遇火源导致爆炸,造成居民楼以及周围区域大面积损毁。

从上述案例可见,对于与我们日常生活密切相关的电力、航空、交通、金融等系统,它们的可靠性直接关系到我们的生命财产安全。因此,如何快速、有效、准确地对这些系统的可靠性进行评估与分析,降低系统故障风险,保证系统稳定运行具有极其重要的现实意义。

那么应该如何衡量系统可靠性呢?常用的系统可靠性的衡量指标包括:失效率、平均失效前时间、平均剩余寿命。

首先是失效率,它指的是系统工作到时刻t时仍处于正常状态,但在接下来的单位时间内发生了失效的条件概率。系统的失效率一般会随着时间及系统的生命周期而改变,例如一辆汽车在第八年时的失效率会比第一年要高很多。

那么,失效率是如何随时间变化的呢?一般来说,系统的失效率随时间的变化趋势呈现出“两端高,中间低”的浴盆形状,因此这种经典的失效率曲线被称为“浴盆曲线”。浴盆曲线展现了系统失效率随时间变化的三个阶段:首先是早期失效区:该阶段的特点是系统在使用初期,失效率较高,但随着系统工作时间的增加,失效率迅速下降。此时的系统失效大多由制造缺陷、设计错误或装配瑕疵等因素所致。其次是常值失效区,也称偶然失效区:该阶段的特点是系统失效率较低且保持稳定,失效率近似常数。此时的失效是偶然发生、不可预测的。例如:某街道突发雷击事件,引起的瞬间高电流导致大量LED路灯被烧毁。最后是耗损区:该阶段的特点是系统失效率随时间的推移迅速上升直至整个系统失效。例如:某交通诱导屏在使用多年后出现局部花屏,然后快速完全熄灭。在实际中,我们都希望偶然失效区能尽可能的长,偶然失效率尽可能的低,这样的系统才更可靠。

接下来是平均失效前时间,指的是系统失效前正常运行的平均时间,代表系统的平均寿命,用于衡量不可修复系统的可靠性。举个例子,考虑同类型的三个灯泡,分别持续工作7个月、8个月、和12个月后失效,他们总共工作27个月,那么平均失效前时间就是9个月。该项指标的值越大,表明系统越可靠。

最后一个是平均剩余寿命,指的是系统正常工作到时间t时,所期望的剩余寿命。例如某个工业设备已经运行了1000个小时,其平均剩余寿命为500小时。这意味着从当前时刻开始,该设备预计还能继续运行500个小时。通过剩余寿命预测,可以合理安排维修和更换计划,大大地减少因系统宕机引起的损失。

今天,我们了解了系统可靠性的定义、重要性和常用的度量指标,这些都是系统可靠性分析的基石。在此基础上我们需要不断加强系统可靠性的探索和研究,以更好地应对未来社会的各种需求和挑战。今天的“漫谈系统”就聊到这里,谢谢大家收听。

作者简介:肖辉,西南财经大学教授、管理科学与工程学院副院长、国家级青年人才项目入选者,长期从事系统可靠性、仿真优化、风险管理等方面的研究,在Automatica、IEEE Transactions on AutomaticControl、IISE Transactions、IEEETransactions on Reliability等期刊发表论文数十篇。2022年获得中国系统工程学会第六届“系统科学与系统工程科学技术奖”青年科技奖,现担任中国系统工程学会青年工作委员会副主任委员。

来源: 中国系统工程学会