当航天器、卫星、地面系统组成的“太空网络”突然遭遇扰动,部分卫星失效时,如何确保整个系统仍能完成通信任务?传统可靠性研究关注“不失效”,但在由多个独立系统构成的“系统之系统(SoS)”中,这一思路已过时。近日,我国中国运载火箭技术研究院与北京航空航天大学团队在《Frontiers in Engineering Management》发表研究,首次从航空航天工程实践出发,提出设备SoS可靠性研究框架,揭示复杂系统从“被动防故障”到“主动抗扰动”的新范式,为深空探测、智能交通等领域的可靠性设计提供关键指导。

传统可靠性“失灵”:SoS不是“简单相加”的系统

系统之系统(SoS)是由多个能独立运行的子系统组成的“系统联盟”,比如航空航天设备SoS包含航天器、卫星、地面控制等子系统,它们通过通信网络协同完成任务。与传统单一系统不同,SoS具有分布性(子系统分散各地)、动态性(子系统随时加入或退出)、耦合性(子系统相互依赖)等特点,就像“交响乐团”,每个乐器(子系统)独立演奏,却需整体协调整合。

传统可靠性研究聚焦“在规定时间内不失效”,但SoS的复杂性让这一标准失效。例如某卫星组网任务中,一颗卫星因空间辐射失效,传统方法会判定任务失败;但SoS可通过其他卫星重构通信链路,维持基本功能。论文指出,SoS可靠性的核心已从“避免失效”转向“扰动下的韧性”——包括抵抗(防扰动)、吸收(扛扰动)、恢复(扰动后修复)能力,就像城市电网在台风后快速恢复部分供电。

从航天实践提炼“可靠性密码”:三大能力构建SoS“安全网”

团队从我国航空航天工程实践中提炼出设备SoS可靠性的核心内涵:在指定任务剖面下完成使命的能力,包括扰动下的韧性、快速重构功能、后勤保障效率等。基于此,提出“任务-能力-架构”三层研究框架,就像“盖房子”:先明确要建什么(任务),再确定需要哪些功能(能力),最后设计结构(架构)。

第一步:任务分解,明确“必须守住的底线”
将SoS任务拆解为子任务,识别关键能力。例如深空探测SoS需“通信不中断”,即使某颗中继卫星失效,剩余卫星需通过轨道调整、频段切换维持链路。团队通过“重要度分析”,找出对任务贡献最大的子系统,优先保障其可靠性。

第二步:架构设计,让系统“会自愈”
传统系统架构像“串联电路”,一个子系统失效整体瘫痪;SoS架构则像“互联网”,通过冗余设计(多路径通信)、动态重构(子系统角色切换)实现“自愈”。例如卫星组网中,当某卫星天线故障,地面系统可调度邻近卫星调整波束覆盖,就像交通拥堵时导航自动切换路线。

第三步:仿真验证,用AI“推演”极端场景
通过多智能体仿真、马尔可夫过程等方法,模拟SoS在各种扰动下的表现。例如用强化学习训练AI扮演“故障注入者”,随机切断通信链路、模拟子系统失效,测试SoS的恢复速度。某航天案例中,仿真显示通过“平行四边形辅助链路”设计,扰动恢复时间从30分钟缩短至8分钟。

五大挑战待突破:SoS可靠性仍是“未解题”

尽管框架已提出,SoS可靠性研究仍面临五大核心挑战。

挑战一:怎么给SoS“画像”?
SoS边界模糊、子系统动态变化,传统建模方法难以描述其行为。例如智能电网包含发电、输电、配电等子系统,用户用电行为也会影响系统状态,需开发能融合物理、信息、社会因素的“超网络模型”。

挑战二:网络“牵一发而动全身”怎么办?
子系统通过通信网络连接,局部故障可能“雪崩式”传播。例如某卫星通信中断,可能导致数据链拥堵,引发其他卫星误判姿态,需研究“扰动传播路径预测”技术,就像地震后快速定位断裂带。

挑战三:失效了如何“一键重启”?
传统维修是“坏了再修”,SoS需要“边运行边修复”。例如无人机集群在执行任务时,某架无人机失联,剩余无人机需实时重分配任务、调整队形,这要求后勤保障系统与任务系统深度耦合。

挑战四:AI能当“可靠性设计师”吗?
SoS架构复杂,人工设计难以优化。团队尝试用大模型生成上万种架构方案,通过对抗网络筛选最优解,但如何确保AI设计的架构“可落地”,仍是未解难题。

挑战五:管理“动态联盟”有多难?
SoS子系统可能来自不同单位,接口标准、升级节奏不一,就像“多国部队”协同作战,需建立跨组织的可靠性管理机制,平衡灵活性与安全性。

论文指出,SoS可靠性研究需跳出传统“非黑即白”的失效思维,转向“韧性优先”的新范式。未来,随着深空探测、智能城市等领域的SoS规模扩大,这些挑战的突破将直接关系到复杂工程系统的安全与效率。

来源: 工程管理前沿