文章主题:单圣哲, 西北工业大学, 的空战人工智能, 飞行力学
以下内容来源于硕士学位论文:《基于强化学习的空战决策算法及虚拟现实开发》作者:单圣哲导师:张伟伟西北工业大学 航空学院作者简介:

单圣哲,曾是一名飞行员,2019年成功考入我国著名学府西北工业大学的强军计划硕士研究生阶段。他的研究重点主要集中在空战人工智能以及飞行力学这两个领域。
硕士毕业答辩专家:
吴云 中国人民解放军空军工程大学教授黄江涛 中国空气动力研究与发展中心研究员张晓敏 中国飞行试验研究院飞行仿真实验室主任,高工邓涛 中国人民解放军空军西安飞行学院副教授张伟伟 西北工业大学教授
引用格式:单圣哲. 基于强化学习的空战决策算法及虚拟现实开发. 西北工业大学[D]. 2022.
硕士论文长摘要:
自1903年飞机问世以来,其广泛应用于战争领域,彻底改变了战争的形态,将战争从平面作战推向立体化作战。随着航空武器装备向无人化、智能化、自主化方向快速发展,我们有理由预见,未来将会迎来一个“智能为王”的新时代。在此背景下,空战智能化的核心技术——空战智能决策算法研究,已成为国内外军事领域的研究焦点。
针对空战智能决策问题,国内外学者开展了不同程度的研究,一些有价值的成果相继诞生,从理论层次划分,上述成果可以分为数学求解、知识驱动、搜索驱动和数据驱动方法四大类。数学求解方法通常基于博弈论概念对空战问题进行简化假设,并基于微分对策方法求解问题的Nash均衡,由于微分对策方法在数学上具有局限性,尤其是在处理奇异曲面问题上的不完备,限制了基于数学求解的方法只能解决相对简化假设条件下空战决策问题。知识驱动方法,通常首先通过人工方法构建空战知识,然后利用先验空战知识,基于一定逻辑输出空战中的操纵方案。尽管知识驱动方法可以在知识范围内实现空战自主决策,但其知识建立过程中,无法从数据中生成相应知识,只能依赖专家进行人工建立,这就难免人为引入了大量主观性和不确定性因素,且由于空战具有高度动态性,知识之外的“意外情况”总会发生,基于规则的决策系统在其规则之外的有效性得不到保证。搜索驱动方法,通常将空战中的可选方案离散化,通过试探输入方法得出每种机动方案的可能结果,并通过态势函数量化其结果,最终通过一定的搜索机制找出最有利的方案结果。由于搜索驱动方法在计算维度上存在限制,该类方法难以在长视性和低离散度策略集上取得较好的应用效果。数据驱动,是一种基于数据反向建立知识和规则的过程,该类方法能够摆脱基于规则方法中对人工建立知识的高度依赖,也推动了空战决策方法的新突破。2016年,美国辛辛那提大学建立了Alpha[62]空战系统,并在超视距空战课目中首次取得了决策算法战胜人类飞行员的成绩。2020年美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)组织的人机对抗比赛Alpha DogFight中,美国苍鹭公司基于强化学习开发的空战决策模型以压倒性优势战胜了人类飞行员,并最终获得比赛冠军。这些事件充分说明了基于数据驱动方法在空战智能决策领域巨大的应用潜力和研究价值。尤其随着深度学习技术和强化学习技术发展,一系列功能强大的深度强化学习算法不断被提出,且在多个领域表现出了媲美甚至超越人类专家的决策水平,研究强化学习方法在空战决策领域的应用将极具前沿性和价值性。沿承基于强化学习方法的思路,本研究主要开展了以下工作:空战仿真训练平台搭建、单智能体空战决策模型训练和多智能体空战决策模型训练等工作。空战仿真首先根据飞行空战中常用的操纵维度设计空战控制量,而后以空战控制量为输入,采用基于四元数三自由度飞行动力学方程实时求解战机姿态和位置,根据双机相对位置姿态关系采用空战几何学求解重要性态势信息,同时对雷达、导弹性能包线和交联关系进行建模,结合态势信息和实时判断空战的胜负结果,最终整合为空战数值仿真平台。其中采用三自由空战控制量设计可以简化飞行动态求解难度、降低对气动数据需求同时保证仿真动作可以覆盖所有潜在的空战机动方案,同时采用四元数方法可以避免在垂直向下或向下位置因“万向锁”问题导致仿真中断。基于该仿真,可以使用简单地控制量完成如下“斤斗”、“斜斤斗”、“盘旋”等经典空战机动动作。
(a) 斤斗运动轨迹图
(b) 斜斤斗运动轨迹图
(c) 盘旋运动轨迹图图1 经典战术动作由于空战动态难以从数据角度直观展示,故在空战数值仿真平台基础上,使用Unity3D引擎进行可以可视化开发,对飞行轨迹、火控雷达探照范围、红外导引头探照范围、双机态势等空战信息进行三维复现,以便直观地展示空战动态,并为研究人员提供从经验角度评估机动方案合理性的分析手段,可极大的提升空战决策算法的训练和迭代效率。
(a) 红方飞机跟随视角
(b) 蓝方飞机跟随视角
(c) 俯瞰视角展示图
(d) 漫游视角展示图图2 三维可视化训练平台展示图提出了可以在连续策略集下实现长视性寻优的空战决策算法统一架构,可以将主流连续动作空间强化学习算法应用于空战决策。
图3 连续动作空间空战决策算法统一框架设计基于统一框架,在训练平台上,根据实际训练中热身训练内容设置仿真训练课目,人工智能空战对抗对象为做盘旋机动程控靶机,为保证算法结果具有泛化性,起始态势和敌机机动方案增加较高的不确定性,基于SAC和PPO方法搭建如图4所示的神经网络模型,并将模型训练至收敛。
(a) SAC算法Actor网络结构
(b) SAC算法Critic网络结构
(c) PPO算法Actor网络结构
(d) PPO算法Critic网络结构图4 SAC和PPO算法神经网络模型训练SAC和PPO算法分别与环境交互1.5e7步,由学习曲线可以看出两算法均已收敛,训练曲线如图5所示。
图5 SAC和PPO算法训练曲线验证发现空战智能体在随机态势下都可以对程控靶机实现88%以上的击杀率,统计结果如表1所示。表1 SAC和PPO算法空战仿真实验结果统计表
从经验角度对其机动轨迹进行微观分析,发现智能体的机动方案具有较高的合理性,SAC和PPO方法都能在空战中迅速做出正确决策,如动图6所示。
图6 SAC和PPO空战动态
但SAC算法偶尔会出现如图7所示失误情况,PPO算法未出现该类情况。
图7 SAC方法失误撞地动态展示对比发现,相较于SAC方法,PPO方法在空战决策应用中,无论从宏观还是微观角度都表现出更高的稳定性。为演化出更为复杂也更为智能的空战决策模型,空战对手不再是程控靶机,采用基于群落自博弈思路,通过“左右互搏”方式,让空战智能体在不依赖先验专家知识的前提下从零开始演化空战战术。在该状态下算法的整体复杂约上升2-3个量级,为保证最终结果收敛,对强化学习训练中的状态空间进行更精化的设计,如提取空战态势不变量、量纲分析、相对归一化等。同时为避免结果奖励稀疏且突兀不利于优化,研究设计了杯型函数函数来重构事件奖励,同时嵌入了如空战控制区等战术知识信息,杯型函数奖励结构如图8所示。

(a) 飞行Ma边界惩戒奖励
(b) 飞行速度边界惩戒奖励


(c) 空域坐标边界惩戒奖励
(d) 双机距离惩戒奖励
图8 基于杯型函数的奖励重构
(a) 进攻控制区示意图
(b) 基于攻击区的奖励设计图9 知识嵌入奖励示意图知识嵌入奖励如图9所示,同时根据真实训练背景设置大进入角空战训练课目,大进入角态势如图10所示。
图10 大进入角态势成因大进入角态势也称为迎头态势,空战中,若交战双方中距空战对抗时力量相当,态势感知和电子对抗技术运用都较为合理,且均能够在中距空战中存活下来,那么交战双方极有可能进入大进入角近距空战态势。在大进入角起始态势空战课目设置下,通过自博弈训练,智能体采用不同超参数训练曲线如图11所示。图13 自博弈训练结果展示
本文的研究成果为通用空战决策算法的实现提供了可行的算法框架,构建了高水平空战智能决策模型。算法框架在空战战术快速生成、虚拟对抗训练、无人空战领域具有较高的应用价值。致谢首先,由衷地感谢我的导师张伟伟教授!我曾经是一名飞行员,本科教育偏向军事训练,学科知识相对薄弱。对于研究生期间能否顺利开展科研工作,我对自己抱有一定的怀疑。入学时,在关于个人科研规划的交谈中,张老师鼓励我,科研不轻松但并不难,事在人为。同时,张老师能够因材施教,考虑我具有的飞行经验,为我选择了智能空战这一研究方向,在这一方向的研究中,我不仅可以充分发挥个人的领域知识优势,而且能在所从事的飞行教学工作中得到充分运用。在科研入门的学习阶段,由于缺乏大量的基础知识,学术论文看不懂,很多概念要从本科基础补起,这让我特别痛苦,是张老师用简单的逻辑帮我理清了基础学科和前沿知识之间的逻辑关系,同时鼓励我采用“拿来主义”的方式,以效用为导向补充基础知识,同时张老师积极组织每周的组内学术交流,在交流中我可以高效捕获前沿技术的发展脉络,这都极大地节约了我的学习成本,仅用半年时间,我便补齐了必备的研究基础。在科研过程中,张老师积极调动有限的业内专家资源,鼓励我参加行业交流会议,走向相关单位的报告舞台,为研究方向找准了真实的工程需求。遇到难以克服的技术困难,张老师总能用敏锐的科研直觉为我指明最有可能突破的方向。正是幸遇良师,才让我在学术上快速进步,茁壮成长。在此,再次向张老师致以诚挚的敬意和感谢。
相关已发表论文:[1] 单圣哲, 杨孟超, 张伟伟, 高传强. 自主空战连续决策方法[J/OL]. 航空工程进展: 1-12[2022-03-07]. 附件:硕士答辩PPT单圣哲-硕士答辩.pdfEND
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!
刷新
刷新



