在军事智能化快速推进的当下,对智能无人作战飞机及其自主空战技术的研究已成为智能空战研究领域的制高点。美国 DARPA 已将自主空对空作战作为其空战演进(ACE)计划的一部分。ACE 计划旨在实现视距内自主空空作战,将无人机引入空战格斗。2016 年,美国空军研究实验室开展的无人机模拟对抗试验中,由辛辛那提大学设计的智能 ALPHA 空战系统击败了资深的美军上校飞行员。俄罗斯的苏 -35、苏 -57 等战机也具备了一定的智能化自主战术对抗能力。随着智能技术在航空作战领域的深入发展,自主空战成为无人机的重要运用方向,其核心技术在于无人机自主对抗的智能决策方法。

1 空战决策方法研究现状

空战决策由于具有强对抗、高动态的特性,使其成为对抗决策领域的高难度问题,探索有效的空战决策方法,已成为学者们孜孜不倦的追求。从早期的基于统计决策和知识推理的方法,到基于模型的最优决策方法,再到基于人工智能的方法,人们对于战斗机自主空战技术的探索越来越趋向于新型智能方法。

基于统计决策和知识推理的方法是将人类专家的知识凝练成空战规则,编制成专家决策系统,并加入飞行员对不同态势的偏好形成决策影响图。美国海军于 1992 年开发了基于专家规则的空战模拟器系统。傅莉等将优化方法与专家系统结合,通过取长补短弥补了专家系统适应性不足的缺陷。Austin 等将传统影响图模型扩展为多级影响图,与滚动时域优化方法相结合获得了更好的效果。Virtanen 等考虑决策者在不确定条件下的偏好,将多级影响图的求解转化为两级优化问题进行求解。此类方法对专家知识具有很强的依赖性,如果专家知识不够准确,就会导致决策方法无法准确反映空战的实际特性。

基于最优决策的方法主要有矩阵对策法、微分对策法和试探机动法等。其总体特征是用某种方法描述空战对抗的动态过程,利用角度、距离、高度、速度、武器杀伤概率等因素,在一定的预测时域内构建优化指标函数,再利用优化算法在解空间内进行迭代寻优。矩阵对策法是将连续对策模型离散化,基于支付矩阵和支付函数来决策己方的机动战术,对空战的动态性、对抗性和竞争性有一定体现,但仍然缺乏有效的适用性。微分对策的思路是把攻防对策转化为双边极值问题后求解,得到最优控制策略。试探机动法是NASA 为支撑超高机动性飞机的研究而提出的一种研究方法,它采用考察双方对抗过程的交互式的决策机制,对于每一次对抗的战术决策,决策系统根据双方当前的战术态势,提出一系列本机可采用的机动动作作为决策候选,这些候选项称为试探机动,通过对每个试探机动进行预测与评价,选择对本机最有利的试探机动作为决策结果。基于最优决策的方法将空战问题完全转化为数学寻优问题,其基础是通过对空战过程的简化而建立的对抗模型,优化指标函数也是在一定情景假设下建立的,因而决策的鲁棒性和泛化能力较差,一旦出现设计中没有考虑的情况便会失效。此外,运算速度也是实时运用的瓶颈,随着对抗目标数量的增加,此类方法的适应性会更差。

基于人工智能的方法赋予无人机学习和自我扩展的能力,使智能无人机具备灵活性、适应性更强的决策能力。McGrew 等采用近似动态规划的方法,通过迭代学习的方式构建目标函数,弥补了传统动态规划方法针对连续决策任务的维数爆炸缺陷。黄长强等使用近似动态规划方法将对抗过程划分为多个规划时域,在每个分段内寻找最优机动动作,提高了算法的实时性。左家亮等在强化学习过程中增加启发函数,构建了分层强化学习模型,通过试错的方式搜索相对较优的机动决策序列。Toubman等采用强化学习解决智能无人机自主对抗问题,针对训练过程中的奖励设计和知识迁移问题进行了探索。Kaneshige 等将人工免疫系统运用到机动决策问题中,建立了免疫战术机动系统,根据抗原(对手状态)特性,结合进化算法生成抗体(机动动作 ) 来应对抗原的威胁,模拟免疫系统的记忆功能,当相同的“抗原”再次出现时,可以迅速做出反应。周凯、魏瑞轩分析借鉴了大脑知识构成、记忆结构,以及大脑通过实践进行学习的机制,设计了一种类脑认知机理的空战对抗学习方法,使智能无人机能借助模拟环境自我学习,从而掌握一定的对抗决策能力。

2 发展方向

通过多年来对空战决策方法的探索,考虑到空战决策问题的强对抗、高动态等复杂特性,学者们开始更多地关注基于类脑智能的理论和方法研究。

一方面是研究基于类脑认知机理的智能决策方法。人类大脑通过学习训练能获得强大的决策能力,并且具有极强的“发育”能力。随着人们对大脑的认识逐渐加深,神经科学和脑科学的研究为信息科学和人工智能的发展提供了重要的基础和创新源泉,通过分析大脑的神经结构、脑区功能和各项认知活动的生理基础,探索类脑认知模型、发育机理和学习方法,使智能无人机能通过学习训练不断增长复杂环境中的决策能力,能为智能无人机对抗决策研究的发展带来新契机。

另一方面是探索人在回路的融合智能。发展人在回路的智能技术辅助飞行员进行对抗决策,能将飞行员从信息收集、分类、处理和基本的动作决策等劳动中解放出来,实现由操作手到指挥官的转变。美国战略与预算评估中心于 2020 年 2 月发布了题为《马赛克战:利用人工智能和自主系统实施决策中心战》的报告,认为要将人类智能的适应性、泛化性,以及创造性与人工智能的运算速度和精度相结合,提高环境适应能力和整体的作战实力。探索能使人机相互理解的交互方式、知识表达方式和学习决策方法,构建人在回路的融合智能是探索智能无人机对抗决策的重要方向。

来源: 选自《中国人工智能学会通讯》