图文详情

当航天器、卫星、地面系统组成的“太空网络”突然遭遇扰动，部分卫星失效时，如何确保整个系统仍能完成通信任务？传统可靠性研究关注“不失效”，但在由多个独立系统构成的“系统之系统（SoS）”中，这一思路已过时。近日，我国中国运载火箭技术研究院与北京航空航天大学团队在《Frontiers in Engineering Management》发表研究，首次从航空航天工程实践出发，提出设备SoS可靠性研究框架，揭示复杂系统从“被动防故障”到“主动抗扰动”的新范式，为深空探测、智能交通等领域的可靠性设计提供关键指导。

传统可靠性“失灵”：SoS不是“简单相加”的系统

系统之系统（SoS）是由多个能独立运行的子系统组成的“系统联盟”，比如航空航天设备SoS包含航天器、卫星、地面控制等子系统，它们通过通信网络协同完成任务。与传统单一系统不同，SoS具有分布性（子系统分散各地）、动态性（子系统随时加入或退出）、耦合性（子系统相互依赖）等特点，就像“交响乐团”，每个乐器（子系统）独立演奏，却需整体协调整合。

传统可靠性研究聚焦“在规定时间内不失效”，但SoS的复杂性让这一标准失效。例如某卫星组网任务中，一颗卫星因空间辐射失效，传统方法会判定任务失败；但SoS可通过其他卫星重构通信链路，维持基本功能。论文指出，SoS可靠性的核心已从“避免失效”转向“扰动下的韧性”——包括抵抗（防扰动）、吸收（扛扰动）、恢复（扰动后修复）能力，就像城市电网在台风后快速恢复部分供电。

从航天实践提炼“可靠性密码”：三大能力构建SoS“安全网”

团队从我国航空航天工程实践中提炼出设备SoS可靠性的核心内涵：在指定任务剖面下完成使命的能力，包括扰动下的韧性、快速重构功能、后勤保障效率等。基于此，提出“任务-能力-架构”三层研究框架，就像“盖房子”：先明确要建什么（任务），再确定需要哪些功能（能力），最后设计结构（架构）。

第一步：任务分解，明确“必须守住的底线”
将SoS任务拆解为子任务，识别关键能力。例如深空探测SoS需“通信不中断”，即使某颗中继卫星失效，剩余卫星需通过轨道调整、频段切换维持链路。团队通过“重要度分析”，找出对任务贡献最大的子系统，优先保障其可靠性。

第二步：架构设计，让系统“会自愈”
传统系统架构像“串联电路”，一个子系统失效整体瘫痪；SoS架构则像“互联网”，通过冗余设计（多路径通信）、动态重构（子系统角色切换）实现“自愈”。例如卫星组网中，当某卫星天线故障，地面系统可调度邻近卫星调整波束覆盖，就像交通拥堵时导航自动切换路线。

第三步：仿真验证，用AI“推演”极端场景
通过多智能体仿真、马尔可夫过程等方法，模拟SoS在各种扰动下的表现。例如用强化学习训练AI扮演“故障注入者”，随机切断通信链路、模拟子系统失效，测试SoS的恢复速度。某航天案例中，仿真显示通过“平行四边形辅助链路”设计，扰动恢复时间从30分钟缩短至8分钟。

五大挑战待突破：SoS可靠性仍是“未解题”

尽管框架已提出，SoS可靠性研究仍面临五大核心挑战。

挑战一：怎么给SoS“画像”？
SoS边界模糊、子系统动态变化，传统建模方法难以描述其行为。例如智能电网包含发电、输电、配电等子系统，用户用电行为也会影响系统状态，需开发能融合物理、信息、社会因素的“超网络模型”。

挑战二：网络“牵一发而动全身”怎么办？
子系统通过通信网络连接，局部故障可能“雪崩式”传播。例如某卫星通信中断，可能导致数据链拥堵，引发其他卫星误判姿态，需研究“扰动传播路径预测”技术，就像地震后快速定位断裂带。

挑战三：失效了如何“一键重启”？
传统维修是“坏了再修”，SoS需要“边运行边修复”。例如无人机集群在执行任务时，某架无人机失联，剩余无人机需实时重分配任务、调整队形，这要求后勤保障系统与任务系统深度耦合。

挑战四：AI能当“可靠性设计师”吗？
SoS架构复杂，人工设计难以优化。团队尝试用大模型生成上万种架构方案，通过对抗网络筛选最优解，但如何确保AI设计的架构“可落地”，仍是未解难题。

挑战五：管理“动态联盟”有多难？
SoS子系统可能来自不同单位，接口标准、升级节奏不一，就像“多国部队”协同作战，需建立跨组织的可靠性管理机制，平衡灵活性与安全性。

论文指出，SoS可靠性研究需跳出传统“非黑即白”的失效思维，转向“韧性优先”的新范式。未来，随着深空探测、智能城市等领域的SoS规模扩大，这些挑战的突破将直接关系到复杂工程系统的安全与效率。

来源: 工程管理前沿

卫星组网总“掉链子”？我国团队揭秘系统之系统可靠性新难题——从“不失效”到“会恢复”的范式转变

传统可靠性“失灵”：SoS不是“简单相加”的系统

从航天实践提炼“可靠性密码”：三大能力构建SoS“安全网”

五大挑战待突破：SoS可靠性仍是“未解题”

科普中国系列品牌网站

入驻科普号

合作机构