【发明授权】一种基于课程强化学习的游戏跟随方法和系统_广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司_201910596192.X

申请/专利权人：广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司

申请日：2019-07-03

公开（公告）日：2023-03-17

公开（公告）号：CN110327624B

主分类号：A63F13/56

分类号：A63F13/56

优先权：

专利状态码：有效-授权

法律状态：2023.03.17#授权;2019.11.08#实质审查的生效;2019.10.15#公开

摘要：本发明公开了一种基于课程强化学习的游戏跟随方法和系统，包括：获取游戏接口，建立训练环境并定义课程导航任务；采用策略梯度的强化学习算法训练策略；将地图上所有可到达的点分别作为起点和目标点对策略进行测试。本发明通过对课程导航任务的训练，建立一种根据环境状态直接给出动作指令的跟随策略，解决了现有技术中跟随灵活性差，对复杂地形适应性差的问题。

主权项：1.一种基于课程强化学习的游戏跟随方法，其特征在于，包括以下步骤：S1，获取游戏接口，建立训练环境并定义课程导航任务；S2，采用策略梯度的强化学习算法训练策略；S3，将地图上所有可到达的点分别作为起点和目标点对策略进行测试；其中，训练策略包含以下步骤：S21，策略网络与环境交互，产生序列数据并存入缓存中，序列数据Dk包括状态St，动作at，动作的概率πθat|st，价值估计奖励rt，S22，从缓存中获取序列数据，计算策略梯度，以及价值loss的梯度，S23，对策略和价值估计网络的参数进行更新，并清除缓存，S24，重复以上步骤直至收敛，即每个回合的平均奖励达到目标数量上限。

全文数据：一种基于课程强化学习的游戏跟随方法和系统技术领域本发明涉及人工智能领域，特别是指一种基于课程强化学习的游戏跟随方法和系统。背景技术寻路跟随一直在各种游戏中有着十分广泛的应用，比如在MMRPG中宠物跟随玩家移动，队员跟随队长移动，怪物追踪玩家进行攻击。传统技术中的跟随实现方案一般有以下几种：一、复制轨迹。即按照跟随对象的移动序列或动作序列重复执行。这种方式实现简单，但是AI表现过于呆板。并且在存在陷阱等移动障碍时，与被跟随对象的跳跃等移动能力不一致时可能会出现无法通过的情况。二、重新规划路径，再根据路径控制角色移动。该方法需要根据游戏场景和角色的行动能力对地图各处的转移概率进行建模，因此对于复杂地形需要大量工程确定各处的可通过性，且该方法无法处理变化地形如可动陷阱等。发明内容本发明提出一种基于课程强化学习的游戏跟随方法和系统，解决了现有技术中跟随灵活性差，对复杂地形适应性差的问题。本发明的技术方案是这样实现的：一种基于课程强化学习的游戏跟随方法，包括以下步骤：S1，获取游戏接口，建立训练环境并定义课程导航任务；S2，采用策略梯度的强化学习算法训练策略；S3，将地图上所有可到达的点分别作为起点和目标点对策略进行测试。作为本发明的一个优选实施例，所述步骤S1具体包括以下步骤：S11，在训练端与游戏客户端间建立通讯，训练端通过通讯接口获取游戏内容并控制角色动作；S12，在获取的游戏信息基础上建立环境，所述环境用于提供游戏内容的抽象，为算法提供状态和奖励并执行算法得到的动作，所述状态包括游戏角色的位置，周围状况和跟随目标的位置，所述奖励为算法训练提供反馈；S13，定义课程导航任务，在环境中按照一定难度等级从低到高随机生成目标位置，直至到达数量上限，而角色需要地图上的某点出发采取适当行动依次到达指定的目标点，每次到达可获得相应奖励。作为本发明的一个优选实施例，所述导航任务的定义包含以下步骤：S131在地图上求得所有的可到达点，构成可到达点集合；S132将可到达点的难度划分为多个级别；S133每个回合从第1级难度的点开始随机取点作为目标点，角色每到达一个点则在下一个难度生成新的随机点，并给与1点奖励；S134当到达最后一个难度的终点或到达时间限制结束一个训练回合。作为本发明的一个优选实施例，当每回合的平均奖励到达一定阈值时，将目标点的难度由递进改为随机选择。作为本发明的一个优选实施例，所述步骤S2中强化学习算法需要学习的部分包括：策略网络πθ和价值估计网络策略网络输入当前状态预测需要角色需要执行的动作，价值估计网络输入当前状态预测价值的期望，所述价值的期望是指对未来获得奖励之和的预期。作为本发明的一个优选实施例，训练策略包含以下步骤：S21，策略网络与环境交互，产生序列数据并存入缓存中，序列数据包括状态st，动作at，动作的概率πθat|st，价值估计奖励rt，S22，从缓存中获取序列数据，计算策略梯度，以及价值loss的梯度，S23，对策略和价值估计网络的参数进行更新，并清除缓存，S24，重复以上步骤直至收敛，即每个回合的平均奖励达到目标数量上限。作为本发明的一个优选实施例，所述策略和价值估计网络为共享特征表示层的深度神经网络，输入包括周围环境情况和坐标，特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层；第一卷积层的卷积核尺寸为8x8，通道数为16，步长为4，第二卷积层的卷积核尺寸为4x4，通道数为32，步长为2，第三卷积层的卷积核尺寸为3x3，通道数为32，步长为1；第一全连接层通道数为128，第二全连接层通道数为256，策略网络的策略全连接层通道数为256，价值估计网络的价值估计全连接层通道数为256。作为本发明的一个优选实施例，步骤S3中生成可到达点包括以下步骤：S31，根据地图元素的属性求出所有可站立点集合以及可通过点集合；S32，对站立点集合向上方膨胀固定距离得到膨胀点集合；S33，将膨胀点集合与可通过点集合取交集再减去可站立集合得到可到达点集合；S34，从可到达点集合任意取出一点即为可到达点。一种基于课程强化学习的游戏跟随系统，基于所述方法实现，其特征在于，包括建立单元，用于获取游戏接口，建立训练环境；定义单元，用于定义课程导航任务；策略单元，用于采用策略梯度的强化学习算法训练策略；测试单元，用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试。本发明的有益效果在于：通过对课程导航任务的训练，建立一种根据环境状态直接给出动作指令的跟随策略，解决了现有技术中跟随灵活性差，对复杂地形适应性差的问题。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明一种基于课程强化学习的游戏跟随方法一个实施例的流程图；图2为训练端智能体与环境交互的示意图；图3为策略网络与环境交互过程的示意图；图4为策略及价值估计网络结构示意图；图5为本发明一种基于课程强化学习的游戏跟随系统一个实施例的原理框图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。如图1所示，本发明提出了一种基于课程强化学习的游戏跟随方法，包括以下步骤：S1，获取游戏接口，建立训练环境并定义课程导航任务；所述步骤S1具体包括以下步骤：S11，采用socket在训练端与游戏客户端间建立通讯，训练端通过该通讯接口获取游戏内容并控制角色动作；图2是训练端智能体与环境交互的示意图。S12，在获取的游戏信息基础上建立环境，所述环境用于提供游戏内容的抽象，为算法提供状态和奖励并执行算法得到的动作，所述状态包括游戏角色的位置，周围状况包括周围的陷阱状态等和跟随目标的位置，所述奖励为算法训练提供反馈；S13，定义课程导航任务，在环境中按照一定难度等级从低到高随机生成目标位置，直至到达数量上限，而角色需要地图上的某点出发采取适当行动依次到达指定的目标点，每次到达可获得相应奖励。所述导航任务的定义包含以下步骤：S131在地图上求得所有的可到达点，构成可到达点集合；S132将可到达点的难度划分为多个级别；S133每个回合从第1级难度的点开始随机取点作为目标点，角色每到达一个点则在下一个难度生成新的随机点，并给与1点奖励；S134当到达最后一个难度的终点或到达时间限制结束一个训练回合。为了增强策略的鲁棒性，当每回合的平均奖励到达一定阈值时，将目标点的难度由递进改为随机选择。S2，采用策略梯度的强化学习算法训练策略；所述步骤S2中强化学习算法需要学习的部分包括：策略网络πθ和价值估计网络策略网络输入当前状态预测需要角色需要执行的动作，价值估计网络输入当前状态预测价值的期望，所述价值的期望是指对未来获得奖励之和的预期。作为本发明的一个优选实施例，训练策略包含以下步骤：S21，策略网络与环境交互，交互过程如图3所示，产生序列数据并存入缓存中，序列数据包括状态st，动作at，动作的概率πθat|st，价值估计奖励rt，S22，从缓存中获取序列数据，计算策略梯度，以及价值loss的梯度，策略梯度的计算公式如下：其中，S23，对策略和价值估计网络的参数进行更新，并清除缓存，策略网络参数的更新公式如下：价值估计网络参数的更新公式如下：S24，重复以上步骤直至收敛，即每个回合的平均奖励达到目标数量上限。所述平均奖励的计算方法为取最近100回合的奖励结果求平均值。所述策略和价值估计网络为共享特征表示层的深度神经网络，输入包括周围环境情况和坐标，如图4所示。特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层；第一卷积层的卷积核尺寸为8x8，通道数为16，步长为4，第二卷积层的卷积核尺寸为4x4，通道数为32，步长为2，第三卷积层的卷积核尺寸为3x3，通道数为32，步长为1；第一全连接层通道数为128，第二全连接层通道数为256，策略网络的策略全连接层通道数为256，价值估计网络的价值估计全连接层通道数为256。S3，将地图上所有可到达的点分别作为起点和目标点对策略进行测试。步骤S3中生成可到达点包括以下步骤：S31，根据地图元素的属性求出所有可站立点集合以及可通过点集合；S32，对站立点集合向上方膨胀固定距离得到膨胀点集合；S33，将膨胀点集合与可通过点集合取交集再减去可站立集合得到可到达点集合；S34，从可到达点集合任意取出一点即为可到达点。如图5所示，本发明还提出了一种基于课程强化学习的游戏跟随系统，基于所述方法实现，其特征在于，包括建立单元，用于获取游戏接口，建立训练环境；定义单元，用于定义课程导航任务；策略单元，用于采用策略梯度的强化学习算法训练策略；测试单元，用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试。随着深度学习技术的爆发，基于深度学习的强化学习ReinforcementLearning技术也得到了飞速发展。深度强化学习技术可以利用程序的自我探索以及对人类行为的模仿，自发地产生对环境的响应行为，避免了人工设计规则的问题。课程强化学习CurriculumReinforcementLearning，通过在强化学习中通过定义由易到难的多阶段任务，来实现泛化能力的提高和收敛速度的加快。本发明通过对课程导航任务的训练，建立一种根据环境状态直接给出动作指令的跟随策略，解决了现有技术中跟随灵活性差，对复杂地形适应性差的问题。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

权利要求：1.一种基于课程强化学习的游戏跟随方法，其特征在于，包括以下步骤：S1，获取游戏接口，建立训练环境并定义课程导航任务；S2，采用策略梯度的强化学习算法训练策略；S3，将地图上所有可到达的点分别作为起点和目标点对策略进行测试。2.根据权利要求1所述的基于课程强化学习的游戏跟随方法，其特征在于，所述步骤S1具体包括以下步骤：S11，在训练端与游戏客户端间建立通讯，训练端通过通讯接口获取游戏内容并控制角色动作；S12，在获取的游戏信息基础上建立环境，所述环境用于提供游戏内容的抽象，为算法提供状态和奖励并执行算法得到的动作，所述状态包括游戏角色的位置，周围状况和跟随目标的位置，所述奖励为算法训练提供反馈；S13，定义课程导航任务，在环境中按照一定难度等级从低到高随机生成目标位置，直至到达数量上限，而角色需要地图上的某点出发采取适当行动依次到达指定的目标点，每次到达可获得相应奖励。3.根据权利要求1或2所述的基于课程强化学习的游戏跟随方法，其特征在于，所述导航任务的定义包含以下步骤：S131在地图上求得所有的可到达点，构成可到达点集合；S132将可到达点的难度划分为多个级别；S133每个回合从第1级难度的点开始随机取点作为目标点，角色每到达一个点则在下一个难度生成新的随机点，并给与1点奖励；S134当到达最后一个难度的终点或到达时间限制结束一个训练回合。4.根据权利要求3所述的基于课程强化学习的游戏跟随方法，其特征在于，当每回合的平均奖励到达一定阈值时，将目标点的难度由递进改为随机选择。5.根据权利要求1所述的基于课程强化学习的游戏跟随方法，其特征在于，所述步骤S2中强化学习算法需要学习的部分包括：策略网络πθ和价值估计网络策略网络输入当前状态预测需要角色需要执行的动作，价值估计网络输入当前状态预测价值的期望，所述价值的期望是指对未来获得奖励之和的预期。6.根据权利要求1或4所述的基于课程强化学习的游戏跟随方法，其特征在于，训练策略包含以下步骤：S21，策略网络与环境交互，产生序列数据并存入缓存中，序列数据包括状态st，动作at，动作的概率πθat|st，价值估计奖励rt，S22，从缓存中获取序列数据，计算策略梯度，以及价值loss的梯度，S23，对策略和价值估计网络的参数进行更新，并清除缓存，S24，重复以上步骤直至收敛，即每个回合的平均奖励达到目标数量上限。7.根据权利要求6所述的基于课程强化学习的游戏跟随方法，其特征在于，所述策略和价值估计网络为共享特征表示层的深度神经网络，输入包括周围环境情况和坐标，特征表示层包括处理角色周围状态表示的三层卷积层和一个处理坐标的全连接层；第一卷积层的卷积核尺寸为8x8，通道数为16，步长为4，第二卷积层的卷积核尺寸为4x4，通道数为32，步长为2，第三卷积层的卷积核尺寸为3x3，通道数为32，步长为1；第一全连接层通道数为128，第二全连接层通道数为256，策略网络的策略全连接层通道数为256，价值估计网络的价值估计全连接层通道数为256。8.根据权利要求1所述的基于课程强化学习的游戏跟随方法，其特征在于，步骤S3中生成可到达点包括以下步骤：S31，根据地图元素的属性求出所有可站立点集合以及可通过点集合；S32，对站立点集合向上方膨胀固定距离得到膨胀点集合；S33，将膨胀点集合与可通过点集合取交集再减去可站立集合得到可到达点集合；S34，从可到达点集合任意取出一点即为可到达点。9.一种基于课程强化学习的游戏跟随系统，基于权利要求1所述方法实现，其特征在于，包括建立单元，用于获取游戏接口，建立训练环境；定义单元，用于定义课程导航任务；策略单元，用于采用策略梯度的强化学习算法训练策略；测试单元，用于将地图上所有可到达的点分别作为起点和目标点对策略进行测试。

百度查询：广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司一种基于课程强化学习的游戏跟随方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具备快接功能的汽车线束_天津博尔特科技有限公司_202322504460.5

下一篇：一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

相关技术

一种具备快接功能的汽车线束_天津博尔特科技有限公司_202322504460.5

一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

一种电池叠放平台_济源市万洋绿色能源有限公司_202322480402.3

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

游戏相关技术

一种游戏手柄_广州市品众电子科技有限公司_202322271176.8

一种具有操作手柄快速插接结构的游戏掌机_深圳市壹号本科技有限公司_202322467240.X

游戏对象信息的显示控制方法、装置及电子设备_网易(杭州)网络有限公司_202211287581.2

游戏画面渲染方法、装置、服务器和存储介质_腾讯科技(深圳)有限公司_202011242090.7

桌面游戏的管理系统_天使集团股份有限公司_202311680973.X

游戏回放方法和系统_上海幻电信息科技有限公司_202110507024.6

一种游戏按键_广东瑞讯电子科技有限公司_202322497772.8

一种脚踏式游戏机及游戏控制方法_广州华立科技股份有限公司_201711135266.7

一种折叠型游戏手柄_深圳市德尔凯科技有限公司_202322346918.9

高级游戏可视化系统_伊瓦·阿尔布佐夫_201980050910.1

跟随相关技术

跟随式静电喷涂线_福建省基恩士机械科技有限公司_202322497970.4

用于重型车辆的自适应路径跟随算法_沃尔沃卡车集团_202180098469.1

一种新型的无人艇自适应航迹跟随控制方法_安徽新华学院_202310676844.7

一种顶刷吹风跟随的智能控制方法及系统_上海巴兰仕汽车检测设备股份有限公司_202410058865.7

一种适应于配电运维业务的智能跟随工具车_云南电网有限责任公司昆明供电局_202311724323.0

一种人工智能的AGV小车自动跟随方法及系统_新疆美特智能安全工程股份有限公司_202110670862.5

一种基于垄形跟随装置的自走式全自动蔬菜移栽机_沈阳农业大学_202410247204.9

高速跟随开袋机构_朗锐包装技术(沧州)有限公司_202410063844.4

路径跟随方法、机器人及存储介质_深圳竹芒科技有限公司_202311864775.9

一种柔性跟随施力装置及施力设备_北京强度环境研究所_202311620269.5

龙图腾网&IPTOP

【发明授权】一种基于课程强化学习的游戏跟随方法和系统_广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司_201910596192.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务