当大型推土机与自卸卡车在矿山狭窄作业面同时作业,因调度不当导致的碰撞事故可能造成致命后果。美国2008-2021年矿山安全数据显示,83起死亡事故直接源于安全规则违反,其中机械协同作业的时空冲突是主要诱因。如何让多台设备在保证安全距离的前提下高效运转?近日,华中科技大学数字建造与工程安全全国重点实验室团队在《Frontiers of Engineering Management》发表研究,提出融合时空安全约束的深度强化学习调度方法,为这一难题提供新解。

传统调度的“两难困境”:安全与效率难以兼顾
矿山土方工程堪称“移动的迷宫”——数十台设备需在有限区域内完成土壤开挖、运输、倾倒等串联任务。传统人工调度依赖经验判断,常陷入“顾此失彼”的困境:为赶工期压缩安全间隔,可能导致机械碰撞;严格遵守安全规则,又会因设备等待造成效率损失。我国内蒙古某 lignite 矿的调研显示,无安全约束时,单台卡车可能承担60%运输任务,而相邻作业线机械同时开工的概率高达35%,事故风险陡增。

现有智能调度技术虽能优化效率,但多忽视安全约束。例如基于遗传算法的调度模型,虽能缩短15%作业时间,却未考虑机械间的空间距离和时间间隔,实际应用中仍需人工介入调整。

DRL+时空约束:给AI装上“安全护栏”
研究团队创新性地将时空安全约束嵌入深度强化学习框架,构建“会规避风险的调度大脑”。其核心思路是:让AI在模拟训练中学习“交通规则”,既避免设备“抢道”,又不浪费作业时间。

空间隔离(X轴约束) 如同给作业区划设“虚拟车道”:相邻平行作业线(土壤倾倒区域)禁止同时有机械运行,防止横向碰撞。时间间隔(Y轴约束) 则像设置“红绿灯”:同一作业线内,后一台设备需在前一台离开至少15秒后才能进入,确保纵向安全距离。

为实现这一目标,AI通过三阶段学习掌握调度策略:首先用图神经网络(GIN)“读懂”作业任务特征(如土壤量、设备类型),再通过多层感知机(MLP)“匹配”最优设备,最后通过多智能体PPO算法反复迭代,在“违规受罚、合规奖励”的机制中优化决策。

实测验证:大型场景调度时间1786分钟,安全违规降60%
在不同规模测试中,该系统展现出“大小通吃”的适应性。小型场景(5台设备)训练1000批次后,总作业时间稳定在403分钟,安全约束仅增加2%耗时;扩展到20台设备的大型场景,虽初始调度时间长达1786分钟,但较传统FIFO算法缩短22%,且无一起模拟碰撞事故。

更关键的是,该方法在复杂场景中优势显著:当作业区从1个扩展到4个时,总调度时间从1260分钟降至1126分钟,因多区域并行作业减少了空间约束冲突。在内蒙古煤矿的实地测试中,卡车利用率标准差从0.58降至0.32,原本“闲置”的Machine 3作业频次提升60%,实现“负荷均衡”与“安全无虞”的双赢。

未来挑战:动态环境与多目标优化
尽管成效显著,技术落地仍需突破“最后一公里”。当前模型对粉尘、能见度等动态环境因素考虑不足,且调度目标仅优化时间,未纳入能耗、设备损耗等维度。团队计划下一步引入实时传感数据,开发“环境感知-调度决策”闭环系统,并探索将碳排放指标融入优化目标。

随着我国矿山智能化转型加速,这类技术有望在煤矿、金属矿等领域规模化应用。或许不久后,地下矿山的“机械交响”将由AI指挥,既“不撞车”也“不堵车”。

来源: 工程管理前沿