由知识牵引和数据驱动的象棋人工智能设计和关键技术

2022-05-12 版权声明 我要投稿

摘要:在分析知识推理型与数据学习型兵棋AI优缺点的基础上,提出了基于知识牵引与数据驱动的AI设计框架。针对框架中涉及的基于数据补全的战场态势感知、基于遗传模糊系统的关键点推理、基于层次任务网的任务规划、计划修复与重规划、基于深度强化学习的算子动作策略优化等关键技术进行了深入探讨。所提框架具有较强的适应性,不仅能够满足分队、群队、人机混合等兵棋推演的应用需求,而且适用于解决一般回合制或即时策略性的博弈对抗问题。

引言

兵棋是一种研究战争内在规律和训练指挥员指挥决策能力的工具,分为手工兵棋和计算机兵棋。随着信息技术的飞速发展,计算机兵棋逐渐成为当前兵棋推演的主要方式。特别是近年来人工智能技术在AlphaGo、德州扑克以及星际争霸等游戏领域取得的突破[1-7],从简单环境下的完全信息博弈,到不完全信息博弈,再到复杂环境下的不完全信息博弈,这些游戏AI在与人的博弈中均展现出了高水平的智能性。由于兵棋推演也是一种复杂环境下的不完全信息博弈过程,因此如何将相关人工智能技术应用到兵棋推演中[8,9],设计实现兵棋AI辅助指挥员进行感知、判断、决策和行动(observeorientdecideact,OODA),已成为当前兵棋推演研究的热点问题。

国外兵棋系统发展较早,美军通过联合战区级兵棋系统(jointtheaterlevelsimulation,JTLS)和联合冲突战术兵棋系统(jointconflictandtacticalsimulation,JCATS)[10]等对作战方案进行分析与评估。2020年美国兰德公司发布了《思维机器时代的威慑》报告,讨论的核心问题是兵棋推演中人工智能和自主技术如何随着事件的发展影响局势升级和威慑方式[11]。美国国防高级研究计划局(defenseadvancedresearchprojectsagency,DARPA)最近也启动了“兵棋突破者”项目,旨在研究开发兵棋AI帮助人类指挥官在真实战斗中击败对手[12]。国内兵棋系统起步较晚,通过借鉴国外成熟的兵棋技术并与我军实际相结合,在兵棋系统研发与运用方面也取得到了较快的发展。国防大学兵棋团队研制了战略战役级兵棋系统[13],并分析了人工智能特别是深度学习技术运用在兵棋系统上需要解决的问题[8]。中国科学院自动化研究所自2017年首次推出“CASIA-先知1.0”兵棋推演人机对抗AI以来,陆续推出了分队级AI“AI-alphawarV1.0”以及群队级AI“紫冬智剑V1.0”,一直在探索如何将人工智能技术应用于复杂场景下不完全信息博弈的兵棋推演领域[14]。近期上线的“庙算·智胜”即时策略人机对抗平台更是为相关科研人员研究兵棋AI提供了良好的平台环境[15]。此外,2019年由指控学会和华戍防务共同推出的专业级兵棋《智戎·未来指挥官》,作为《“墨子”联合作战推演系统》的民用版本,在第三、四届全国兵棋推演大赛中成为官方指定平台。2020年由中央军委装备发展部举办的联合作战智能博弈挑战赛,采用了陆海空一体的联合战役级的兵棋系统。这些比赛都极大促进了智能博弈技术在兵棋推演中应用,取得了良好的效果。

分析梳理现有兵棋AI的研究,可以看出主要是利用强化学习、迁移学习、深度神经网络、行为树、有限状态机、启发式搜索、博弈优化等技术提升兵棋AI在态势感知与判断、指挥决策与行动执行等方面的智能性[16-19]。当前,各种智能博弈技术相互交织,迫切需要从整体架构上对兵棋AI的设计进行研究[20,21],充分发挥各类技术的优势并避免其不足,从而提升兵棋AI的整体智能性。因此,本文在分析知识型兵棋AI与学习型兵棋AI优缺点的基础上,提出了知识加学习的混合型AI设计思路,进一步在知识牵引与数据驱动背景下设计了兵棋AI开发框架,并针对框架中涉及的关键技术进行了深入探讨,最后分析了该框架的可扩展性问题。

两类兵棋AI优缺点分析

知识推理型和数据学习型兵棋AI是目前兵棋推演中主要使用的两类决策模型,它们各自具有一定的优势及不足。

知识推理型兵棋AI

知识推理型兵棋AI是通过人工抽取作战规则、条令条例、指挥员经验等非结构化信息形成领域知识,并以此为基础进行推理决策的模型。

知识推理型兵棋AI的优点1)无需训练,可解决智能体的冷启动问题通过人工编辑将军事知识转化成计算机可以识别的结构化数据库,作为兵棋AI进行推理决策的依据,一旦知识库建立好,不需要经过长时间的训练,知识推理型兵棋AI即可运行。

2)具备高层战法智能性,取决于领域知识的完善程度

人工抽取的知识大都是指挥员多年累积的经验规则,例如体现指挥艺术的战法策略,因此知识推理型兵棋AI能够体现出符合军事常识的策略层面决策,其高层智能性水平取决于领域知识的完善程度。

知识推理型兵棋AI的缺点

人工建模领域知识,效率低下

知识和经验大都来自领域专家,通常领域专家并不是计算机专家,需要计算机专家理解领域专家的知识后,再建立结构化数据库让计算机可读,这个过程非常艰难,需要高度的协同和昂贵的成本,费时费力。

确定性规则,智能化水平有上限

通常知识推理型兵棋AI都是基于确定性的规则进行推理决策,其上限是领域专家的个人经验,难以突破产生超越人类智慧的水平,且展现出来的行为动作比较固定,很容易被对手发现缺陷。

数据学习型兵棋AI

数据学习型兵棋AI是基于大量数据及与环境的交互,通过深度学习、强化学习等方式不断学习训练得到的决策模型。1.2.1数据学习型兵棋AI的优点

通过算法自动从数据中学习知识,自动化程度高

不需要人工提炼领域知识,依靠算法和强大的算力,可以处理大量数据,从数据中获取经验知识,通过不断优化学习展示出一定的智能性。

探索未知套路,灵活性高

由于是从数据获取知识而不是人工编码知识,数据学习型兵棋AI可能从自我博弈的数据中发现未知的行动套路,基于态势输出动作,展示出较高的灵活性。

数据学习型兵棋AI的缺点

状态空间大,奖励延迟长,学习训练代价高昂

对于较为复杂的决策场景,模型学习训练的搜索空间极其巨大,并且对于持续的序惯决策而言,随着序惯长度的增加,模型的奖励延迟加长,造成学习训练的计算代价高昂。

模型解释能力较差,泛化能力较弱

通常训练得到深度神经网络模型,知识隐藏在结点与结点的连接及其权重上,人类对这些形式的知识难以理解和解释。如果模型训练的场景与实际应用时的场景差别较大,效果通常较差。

高层战法策略学习困难

基于数据进行训练,得到的大多是底层动作级的模型,即状态-动作响应输出模型,很难从数据中学习得到较高层面的战法策略型知识,而往往这些战法策略型知识更能体现出高水平的智能性。

两类兵棋AI优缺点比较

从上述知识推理型兵棋AI与数据学习型兵棋AI的优缺点分析可以看出,知识推理型兵棋AI具有无需训练、高层智能的优势,而数据学习型兵棋AI具有自动学习、灵活性高的优势,因此考虑将这两者的优势有机结合起来,形成优势互补的知识与数据混合的兵棋AI,如图1所示。

知识牵引与数据驱动的兵棋AI设计

在知识与数据混合的思想指导下,以知识牵引AI的整体策略,以数据驱动AI的具体动作,设计基于知识牵引与数据驱动的兵棋AI框架。该框架分为宏观和微观两个层面,宏观层面AI为知识推理型,实现高层策略设计,主要通过作战任务规划技术产生作战行动序列,微观层面AI为数据学习型,实现底层态势-动作执行,接收宏观AI输出的作战行动序列,主要基于深度强化学习技术,产生算子最终执行的动作行为,如图2所示。

知识主要包括战法艺术类、行动规则类以及对抗经验类等,为宏观AI提供推理决策依据。其中战法艺术类知识主要指高层的作战策略,体现指挥员的指挥艺术,例如声东击西、两路夹击等策略,用于指导基于联盟博弈的空间域任务分解。行动规则类知识主要指将复杂的任务分解为若干行动的分解规则,例如对于火力打击任务,可分解为机动、火力输出等行动,用于指导基于层次任务网的时间域任务分解。对抗经验类知识主要指局部的选择规则,体现指挥员实战经验,例如如何选择最佳的射击点、如何选择最佳的安全点等,用于指导基于遗传模糊系统的关键点推理。时间域和空间域的任务分解都会产生需要完成的任务或行动,而对于动态变化的战场态势,初始规划的行动序列可能会部分无法执行,从而无法达到作战目标,因此需要对行动序列进行计划修复或者重规划,通过不断调整行动序列应对各种不确定因素,保证预期作战目标的达成。

数据主要包括约束规则数据、自博弈数据以及复盘数据等,为微观AI提供学习训练基础。其中约束规则类数据主要指基本的约束条件,例如武器在冷却时间内不能再次射击、高程差过大的路段车辆无法通行等,为基于深度强化学习的算子动作生成提供约束条件,避免产生明显不符合规则的行动。自博弈类数据主要指智能体自己和自己对抗产生的数据,为基于深度强化学习的算子动作策略不断优化提供数据基础。复盘数据主要指人类选手的对抗数据,通过对其分析挖掘,对敌方位置和行动等进行预测,进而将不完全信息的战场态势变得更加透明,即基于数据补全的战场态势感知。

宏观AI完成的作战任务规划,其本质就是形成“谁”即任务执行主体,“何时”即行动的先后顺序,“何地”即执行任务的地点,“做什么”即需要执行的任务,这样的行动序列。空间域的任务分解主要解决从顶层目标任务到分队任务的分解,对算子进行分组形成不同分队,并为其分配相应的分队任务。通过引入博弈论中的联盟博弈方法,期望实现分队与分队之间最大收益的协同作战。时间域的任务分解主要解决从分队任务到行动序列的分解,需要根据分队任务明确分队内每个算子的行动,并指定这些行动之间的先后顺序。通过基于层次任务网的规划技术,实现满足作战规则的行动序列生成。无论是分队任务还是单个算子行动,都需要明确执行任务的地点,通过引入遗传模糊系统实现关键点的推理,为任务和行动的执行提供最佳的位置。微观AI则主要解决“如何做”的问题,针对上层输入的行动,采用深度强化学习技术得到态势动作输出模型,通过一系列的动作执行完成上层输入的行动。

上下分层的设计框架,能够充分发挥知识推理型和数据学习型AI各自优势,并且避免其不足。宏观AI具备一定战法智能,在全局场景下针对目标任务,充分发挥已有知识的牵引作用,通过任务规划设计战争。微观AI具备一定的动作智能,在局部场景下针对特定行动,充分发挥算法学习与计算的能力,通过态势-动作响应模型来生成动作完成行动。如此一来,既实现了宏观层面指挥员的战法艺术,又实现了微观层面灵活快速的动作输出。

知识牵引与数据驱动的兵棋AI关键技术

下面按照OODA的顺序对知识牵引与数据驱动的兵棋AI框架中所涉及的关键技术进行阐述。

基于数据补全的战场态势感知

早期不完全信息博弈的代表是德州扑克等牌类游戏,主要通过概率统计和对手建模减弱不完全信息的影响,像星际争霸等即时策略游戏(real-timestrategy,RTS),其不完全信息受观察范围和屏幕大小的约束,主要的处理方式利用长短记忆网络(longshort-termmemory,LSTM)进行处理。

在战争对抗领域,优秀的指挥员必然能很好的透过战争迷雾,准确地分析敌方态势和意图。兵棋不完全信息主要是因为观察距离限制或者地形遮挡而导致的敌方棋子信息不可观察。一方面,对于从未观察到的敌方棋子,其信息具有很强的随机性,与对方指挥员的指挥风格相关性较大;另一方面,对于曾经观察到的敌方棋子,当前时刻无法观察,其随机性相对较低,对其预测是一种条件概率预测。

在图像处理领域,数据补全技术可以根据部分图像生成其余的全部图像[22,23]。兵棋态势信息可以看作一张或多张图片,因此考虑将图像领域中的数据补全技术迁移到兵棋态势感知领域中,根据部分态势补全完整的态势信息,揭开战争迷雾,基本思路如图3所示。

其中条件变分自动编码机(conditionalvariationalautoencoder,CVAE)能够根据特定的前提条件,随机生成特定类型的图像。神经高斯过程(neuralprocesses,NP)是对CVAE框架的发展,它将图片的已知信息作为概率预测的条件,对图像未知的部分进行多样性预测。模型训练时基于大量的历史复盘数据,得到态势补全与预测的生成模型。算法输入数据具有高度灵活性,既能够根据当前时刻的已知态势补全未知态

上一篇:虚拟现实技术在艺术概论教学中的应用下一篇:湖南省严重精神障碍患者事故行为影响因素探讨