【发明授权】一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7

导航：龙图腾网> 最新专利技术> 一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7

申请/专利权人：南华大学

申请日：2023-07-06

公开（公告）日：2024-03-22

公开（公告）号：CN116881656B

主分类号：G06F18/20

分类号：G06F18/20;G06F18/22;G06N3/0442;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2023.10.31#实质审查的生效;2023.10.13#公开

摘要：本发明公开了一种基于深度蒙特卡洛的强化学习军棋AI系统，属于人工智能AI博弈技术领域；本发明提出一种基于深度蒙特卡洛的强化学习军棋AI系统，并进一步提出了与系统相匹配的训练方法和实际对战执行方法，利用深度蒙特卡洛方法以及棋子上下限评估算法，大大提升了军棋AI的表现，具有良好的现实意义和应用前景，填补了人工智能领域军棋AI的空白。本发明解决了军棋这一非完全信息博弈游戏的AI难以设计及训练等问题，提高军棋AI对战人类时的表现。对于军棋爱好者的训练以及研究具有较大意义，提供了人机对战以及军棋AI自我对弈训练功能。

主权项：1.一种基于深度蒙特卡洛的强化学习军棋AI系统，其特征在于，所述系统包括：军棋对战模块、军棋招法生成模块、军棋特征采集模块、军棋招法决策模块以及决策评估模块；所述军棋对战模块，用于对行棋双方局势的展示、双方决策的执行与交互，并判断棋子间交战的结果；所述军棋招法生成模块，通过检索当前棋局情况并给出当前玩家所有可行的招法，并送入军棋特征采集模块；所述军棋特征采集模块，从军棋对战模块中获得当前己方棋子信息、敌方棋子信息以及双方最近几步的招法，从军棋招法生成模块获得所有可行招法，将这些数据转化为合适的编码格式作为状态值输入军棋招法决策模块；所述军棋招法决策模块，分为训练阶段和实际对战阶段；其中，所述训练阶段包括：根据输入的状态值采用深度蒙特卡洛网络决策技术生成对当前玩家所有可行招法的评估值，即对当前局面下该玩家所有的可行招法进行评估，然后选择估值最大的招法，不断进行抉择直至对局结束分出胜负，根据决策评估模块的最终的反馈信息，训练决策网络，优化决策网络的参数；所述训练阶段的训练方法具体包括如下内容：A1、为两位玩家建立经验池B1、B2，所述经验池是一种存储，分别存储两位玩家对战中每回合的输入特征F，人为设定经验池的上限为S，当经验池存储达到S时，则进行训练来清空经验池并重新开始存储；A2、为两位玩家建立决策网络Q1、Q2，所述决策网络可以读取输入特征F并给出估值，在回合t选出招法动作at的方法是：at=argmaxaQst,ap=1-εat=randomst,ap=ε每一回合的奖励值由最终的结果决定：rt←rt+γrt+1式中，st指第t回合，当前玩家视角下的棋盘状态；rt指第t回合，当前玩家操作获得的奖励值；argmaxa指从当前回合棋盘状态st与动作集合a通过决策网络Q计算得出的估值中选出最大估值的动作作为当前回合动作at；random指从当前回合动作集合a中随机选取一个动作作为当前回合动作at；ε指当前回合的探索概率；p指通过探索概率计算得出的动作方法的对应概率；γ是衰退因子，指当前回合奖励的计算由当前回合奖励以及一个经过衰退的下一回合奖励共同决定；A3、进行总次数为T次的经验池学习，每当一局游戏结束，将该局游戏积累下来的回合特征录入到经验池B中，经验池装满后进行一次学习，至到最终学到T次；A4、每一轮学习中，首先获得经验池B中特征Ft送入网络Q中，得到估值Gt，与记录的rt，使用均方误差来计算损失函数，并使用Adam算法解决网络Q学习率消失、收敛慢、参数更新异常的问题；所述实际对战阶段包括：经过充分训练后的决策模型不再更新网络参数，根据输入的状态值采用深度蒙特卡洛决策技术选出最优招法；所述决策评估模块，根据最终游戏结果来评估整局游戏中各个决策的分数，并生成反馈信息给军棋招法决策模块。

全文数据：

权利要求：

百度查询：南华大学一种基于深度蒙特卡洛的强化学习军棋AI系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

下一篇：一种园林绿化便携铲_马丽丽_202322375183.2

相关技术

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种园林绿化便携铲_马丽丽_202322375183.2

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

电子设备_深圳市嘉晋实业有限公司_202322601396.2

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

军棋相关技术

军棋棋盘及军棋游戏设备_佛山市计客创新科技有限公司_202322191585.7

军棋_刘佰纯_202211086365.1

智能军棋的棋子、智能棋盘及智能军棋_佛山市计客创新科技有限公司_202321306217.6

一种军棋自动裁判组件_吉林省怀信科技开发有限公司_202311154750.X

一种自动判定军棋的装置_无锡市市北高级中学_201810225914.6

一种基于机器视觉的军棋裁判方法及软件程序_张雯心_202210394470.5

一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7

一种新型军棋_浦江县酷尔奇文体用品有限公司_202223259918.7

一种带电子裁判的军棋_防城港市飞鸿少儿编程培训中心有限公司_202222781344.3

基于机器视觉的军棋裁判装置及方法_中国计量大学_201610278534.X

强化相关技术

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

一种强化预筛分的破碎干选装置_连云港恒鑫通矿业有限公司_202322499662.5

一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

基于混合强化学习的车载任务卸载调度方法及系统_北京理工大学_202410205872.5

一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

化学强化光学玻璃_株式会社小原_202280058134.1

一种强化汽车连杆_盐城丰工机械有限公司_202322213045.4

再生混凝土骨料的强化装置_宜昌鑫大兴混凝土有限公司_202322362180.5

一种机床刀具强化方法及机床刀具_阿帕斯数控机床制造(上海)有限公司_202410070782.X

龙图腾网&IPTOP

【发明授权】一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务