当航天器、卫星、地面站组成的“太空网络”中某颗卫星突发故障,会像“蝴蝶效应”一样引发整个系统瘫痪吗?传统可靠性研究关注单个设备“不失效”,但在由多个独立系统构成的“系统之系统(SoS)”中,网络互联让故障传播风险陡增。近日,我国中国运载火箭技术研究院与北京航空航天大学团队在《Frontiers in Engineering Management》发表研究,从网络可靠性与扰动传播角度切入,结合航空航天工程实践,提出SoS可靠性新框架,为破解“局部故障引发全局崩溃”难题提供关键思路。
网络是SoS的“神经网络”,牵一发而动全身
系统之系统(SoS)是由多个能独立完成任务的子系统,通过网络协同实现共同使命的复杂工程系统。以航空航天设备SoS为例,它包含卫星、航天器、地面控制中心等子系统,这些“个体”通过通信链路、数据链、指挥链路组成“网络共同体”——就像一支足球队,每个球员(子系统)有自己的位置,但需通过传球(网络通信)配合才能进球(完成任务)。
网络可靠性正是SoS的“生命线”。论文指出,子系统间的通信与互联是任务协同的基础,尤其是指挥控制系统、数据链路等核心网络,直接决定SoS能否稳定运行。但SoS的网络就像“蜘蛛网”,具有高度复杂性:子系统可能动态加入或退出(如卫星入轨/退役),链路可能受环境干扰(如空间辐射导致信号衰减),任何局部扰动都可能通过网络扩散。例如某卫星姿态控制系统故障,若未及时隔离,错误数据可能通过指挥链路传给地面站,导致地面站误判其他卫星轨道,引发“连锁反应”。
扰动传播的“隐形路径”:从“局部小故障”到“全局大瘫痪”
传统系统的故障往往局限于局部,比如某台设备损坏不会影响整体。但SoS的扰动传播却可能“从小到大、从点到面”。论文通过航天案例分析发现,扰动传播主要有两种路径:功能传播(如传感器故障导致数据错误,影响依赖该数据的子系统)和结构传播(如通信链路中断,导致子系统间“失联”,破坏整体架构)。
更棘手的是,SoS的故障并非“非黑即白”。一颗卫星失效后,剩余卫星可能通过重组链路维持部分功能,但这种“降级运行”状态若持续,可能因资源过载引发新故障。例如某深空探测SoS中,2颗中继卫星失效后,剩余卫星需承担双倍通信任务,导致能源消耗过快,最终全部“断电”——这就是典型的“扰动累积效应”。
从航天实践来的“防御策略”:给SoS装“故障防火墙”
团队基于我国航空航天设备SoS的研发经验,提出“网络拓扑-扰动模型-防御机制”三层应对框架,就像给SoS打造“立体防御系统”:
第一步:画好“网络地图”,锁定关键节点
通过构建网络拓扑模型,标注子系统的通信链路、指挥关系,识别“不可替代节点”。例如在卫星组网中,中继卫星是数据转发的核心,需优先保障其链路冗余——就像城市交通中的“枢纽车站”,必须有备用路线。
第二步:模拟“故障剧本”,预测传播路径
用多智能体仿真、马尔可夫过程等技术,模拟不同扰动场景(如节点失效、链路中断)下的传播过程。某仿真案例显示,当关键中继卫星失效,若未防御,扰动会在15分钟内扩散至80%子系统;而提前识别传播路径后,可将扩散范围控制在30%以内。
第三步:部署“主动防御”,切断传播链条
设计动态隔离、快速重组等机制:当检测到故障,自动切断故障节点与其他子系统的连接(如卫星暂时退出组网),同时调度备用子系统补位(如启动备份卫星)。就像电脑防火墙,发现病毒立即隔离,并用备用程序维持运行。
未来挑战:让SoS网络学会“未卜先知”
尽管框架已在仿真中验证效果,但SoS网络可靠性仍面临三大挑战。首先,如何实时预测传播路径?当前模型依赖预设场景,面对突发扰动(如太空碎片撞击卫星)反应滞后。其次,AI能否辅助动态组网?论文提出用强化学习训练网络“自我优化”,但如何平衡算法复杂度与实时性仍是难题。最后,跨领域标准如何统一?不同SoS(如航天、能源)的网络特性差异大,需建立通用的可靠性评估指标。
研究团队表示,未来将重点突破“扰动传播实时预测”技术,让SoS网络具备“未卜先知”的能力,为深空探测、智能电网等关键领域提供更可靠的复杂系统解决方案。

来源: 工程管理前沿