团队成员基于“战颅”进行战法推演受访者供图 |
在第四届全国兵棋推演大赛“机—机”智能博弈专项赛中,国防科技大学系统工程学院智能规划与目标工程研究团队研发的作战辅助决策智能体“战颅”升级版“战颅二号”,上演了一场扣人心弦的“戏码”:在敌方抢占先机向它发起猛攻之时,它展开了强力反击,最终以1架飞机的优势反败为胜。
现代战争是个复杂的系统工程,单靠指挥员个人的脑力运算很难实现快速最优决策,需要指控系统这个“机器大脑”辅助决策甚至替代指挥员执行部分决策。如何使“机器大脑”各要素协同更密切、信息处理更高效、决策更精准,成为战场上辅助决策的“最强大脑”,该团队一直在思考和钻研。
探索智能决策“无人区”
提起人工智能算法,“战颅”首席设计师冯旸赫如数家珍。2012年攻读博士期间为了完成某项目研发,他与人工智能算法结缘,从此开始系统的学习和研究。
2016年AlphaGo(阿尔法狗)战胜世界围棋冠军,令人工智能名声大噪。对于这个结果,冯旸赫并不感到意外,他早就敏锐地觉察到,智能化时代即将到来,将智能化技术运用到军事领域将大有可为。
冯旸赫与同事们交流了自己的想法,大家一致认为军事智能化是一个重磅课题,甚至可能是制胜未来战争的关键,团队当即把军事智能研究列入了重大项目研究计划。
“我们的研究方向是复杂对抗环境下作战智能决策问题,这个领域当时在国内还属于无人区。”程光权副研究员介绍说。
团队定下了达到一般人类智能水平的阶段性研发目标。集中攻关4个月后,他们最终基于兵棋推演平台研制出了融合知识推理、监督学习、集成学习和强化学习等一系列方法的作战辅助决策智能体,并将其取名为“战颅”。
团队成员吴克宇表示:“我们在摸索中遇到了很多技术难关,‘战颅’面对的对抗环境中实体多、变数多、空间大、规则复杂,对动作、速度等精准度要求极高,远超AlphaGo等人工智能所要处理场景的复杂度。”
好的理论推演结果曾让冯旸赫对实战效果信心满满。但和真人进行实战对抗时,“战颅”暴露出智能化水平低、结果不稳定的弱点,效果并不尽如人意。
问题出在哪里?团队经过反复试验后发现,与理论推演中设置的理想环境不同,作战环境充斥着不确定性,态势难以感知、目标不易评判、信息不够完全影响着“战颅”的决策。团队认为,单纯对标AlphaGo的研发思路,直接运用深度学习、强化学习等算法对“战颅”行不通。
基于多年对运筹和规划问题的研究积累,团队调整了技术路线:将传统的优化方法和智能化算法相结合,突出规则和经验性知识,综合实体模型和人的经验,分阶段、分场景处理。终于,“战颅”的智能越来越强大,在实战对抗中表现也越来越好。
“战颅”以全胜战绩赢得冠军
在人机大战中,红方“米格”战机出发不久,蓝方各传感器已侦察到对方信息,迅速派出大批战机升空压制。“米格”刚一进入战斗射程,蓝方便发动进攻。一番纠缠,“战颅”凭借强大的计算性能,不仅能利用战机的盲区进行规避,而且能抓住有利时机精准打击,红方战机接连被击落数架。首场交战,“战颅”就以770分的高分获胜。
这是第三届全国兵棋推演大赛“人机挑战赛”场景。大赛吸引了全国11名优秀人类挑战者参与,他们与“战颅”展开了22场激烈对决,最终,“战颅”以22场全胜战绩赢得冠军,也标志着我国走出了智能决策技术落地应用的重要一步。
挑战者王俊翔与“战颅”交手后表示,“战颅”的优点是数据分析和学习的能力强,能针对人类选手的操作,根据实时态势改变应对策略,擅长精算、细算。
实际上在开赛前,“战颅”便已与48名选手对战了36场,并保持全胜战绩。58场全胜,如此“神操作”,究竟是如何做到的?
冯旸赫介绍说:“赛前,我们利用人与人对抗产生的优质数据和机器自打产生的大数据对‘战颅’进行了充分训练。截至参赛,‘战颅’一共训练了136天,每天自打160余场。”
光鲜亮丽的背后,更多的是不为人知的付出。备战比赛阶段,团队在实验室安营扎寨,每天都工作到深夜。
“从近一个月的参赛表现看,‘战颅’不仅学会了一些人类选手的经典战法,还独创了特有的战法战术。”团队负责人黄金才研究员表示,人工智能技术的应用提高了指控系统的自动化程度和打击精度,是夺取未来战场制高点的关键。
升级版“战颅二号”战法更灵活
与往届全部使用行动指令、控制实体作战的“人人对抗赛”“人机对抗赛”不同,第四届全国兵棋推演大赛首次设置了“机—机”智能体博弈专项赛,比赛采用任务级兵棋推演平台,作战任务为海空联合攻防。
团队派出了“战颅”智能体的最新升级版本——“战颅二号”。最终,“战颅二号”以107分的高分排名第一,勇夺“机—机”智能博弈专项赛冠军。
“在交战中,我感觉到‘战颅二号’的战法很灵活,每一步决策都精准到位,给人一种难以攻破、难以防守的感觉。”与“战颅二号”交锋的选手说。
“‘战颅二号’完成了联合防空、对海攻击以及空中作战3个模块的任务,通过模块间的组织,‘战颅二号’能够面对不同的敌人选择不同的打法,做到敌变我变。”冯旸赫表示,今年的比赛中,智能体不再是给飞机、舰船等实体下达“动作级”指令,指挥它们具体往哪个方向行动,而是凭借具有自主决策能力的智能化模型,让实体完成如巡逻、侦察、开火等“任务级”指令。经此改进,实体具备了“主观能动性”,能像人一样根据战场态势机动灵活地执行智能体下达的命令,这不仅提高了辅助决策的效率,也有助于探索更加出其不意的战法。
对抗过程中,凭借战法模块间的任务调度、力量配置、任务触发,“战颅二号”一路高歌猛进,任凭对方智能体使出“绕后偷袭”“强力防守”“猛烈进攻”“诱骗导弹”等多种战法,它都能精准研判态势,快速形成决策,一一击败对手。
走下赛场,团队领军专家刘忠表示,要继续将数据、知识和机理很好地融合,将运筹规划和知识推理、强化学习等人工智能技术相结合,探索智能博弈的新机理,推动智能规划技术的研究落地,打造自主决策能力更强、学习能力更快、具有较强场景迁移能力的新一代智能体。