当自然灾害导致电网瘫痪,如何让多支维修队伍像精密齿轮般协同作业?传统调度方法常陷入“路线冲突”“资源错配”的困境,而我国团队研发的深度强化学习框架给出新解。北京航空航天大学团队在《Frontiers of Engineering Management》发表研究,提出融合演员-评论家网络与蒙特卡洛树搜索的AC-MCTS算法,在228节点电网模拟中,将多团队灾后恢复效率提升40%,弹性损失降低至传统方法的60%。该系统首次实现“全局路线规划+动态任务分配”双优化,为交通、供水等基础设施抢修提供通用方案。

传统调度的“致命短板”:多团队协作成“乱麻”

基础设施网络灾后修复如同“多线程拼图”:需同时调度多支团队,平衡修复优先级、路线效率和团队能力差异。然而,传统方法存在三大瓶颈:

  • 局部最优陷阱:单一团队路线最优,却导致整体资源浪费。例如某算法让团队A优先修复近程小故障,却使关键枢纽节点修复延迟20小时。
  • 能力错配:高级别节点(如变电站)需专业团队,但人工分配常出现“新手修核心,专家跑龙套”的情况,导致修复时间增加30%。
  • 动态响应滞后:灾后损坏状态实时变化(如余震引发二次故障),静态规划算法无法快速调整策略。

数据显示,在含62个损坏节点的模拟场景中,传统启发式算法(HHG)需1011小时完成修复,而AC-MCTS仅需984小时,且弹性损失(RL)从256.49降至202.45。

AC-MCTS“双脑”机制:像围棋大师般预判全局

新算法构建“决策-评估”闭环系统,破解多团队协同难题:

演员网络(路线规划师):基于电网拓扑结构(节点位置、线路连接)和实时损坏数据,生成数百万条可能的修复路径。如同导航软件规划最优路线,它会优先推荐“修复关键节点+最短移动距离”的组合,例如“团队1先修复供电半径最大的变电站,再沿主干道修复线路”。

评论家网络(效果预判师):通过蒙特卡洛树搜索模拟未来100步修复效果,计算每种方案的弹性损失和恢复时间。例如,修复节点A可使5000用户恢复供电,但会导致团队2后续绕路20公里,而修复节点B虽仅服务2000用户,却能让团队3提前5小时支援其他区域。

两者协同如同“军师+统帅”:演员提出候选方案,评论家评估长期影响,最终选出全局最优策略。在4组损坏场景测试中,该机制使团队移动距离减少25%,关键节点修复时间提前15小时。

跨场景验证:从电网到城市生命线的普适性

研究在228节点电网、186条线路的复杂场景中验证了算法普适性:

  • 极端损坏场景(62节点+186线路故障):5支团队协同作业时,AC-MCTS将恢复时间压缩至670小时,弹性损失降至133.56,较3支团队配置效率提升35%。
  • 团队能力差异适配:面对移动速度50-60km/h、修复效率不同的团队,算法自动分配任务——让高速团队负责远程节点,高效团队专攻核心枢纽,使整体效率波动控制在5%以内。

更重要的是,该框架可迁移至交通网络(如灾后桥梁抢修)、供水系统(管道破裂修复)等领域。团队通过调整节点权重(如交通网中“医院节点”权重更高),即可实现跨场景适配。

未来:多智能体协同与分布式计算

目前算法训练需28小时(4 GPU并行),团队计划下一步引入多智能体强化学习,让每个维修团队拥有独立决策模型,实现“去中心化”协同。同时,通过C++并行编程优化,将训练时间缩短至小时级,满足实时应急需求。

来源: 工程管理前沿