买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7 

申请/专利权人:南华大学

申请日:2023-07-06

公开(公告)日:2024-03-22

公开(公告)号:CN116881656B

主分类号:G06F18/20

分类号:G06F18/20;G06F18/22;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2023.10.31#实质审查的生效;2023.10.13#公开

摘要:本发明公开了一种基于深度蒙特卡洛的强化学习军棋AI系统,属于人工智能AI博弈技术领域;本发明提出一种基于深度蒙特卡洛的强化学习军棋AI系统,并进一步提出了与系统相匹配的训练方法和实际对战执行方法,利用深度蒙特卡洛方法以及棋子上下限评估算法,大大提升了军棋AI的表现,具有良好的现实意义和应用前景,填补了人工智能领域军棋AI的空白。本发明解决了军棋这一非完全信息博弈游戏的AI难以设计及训练等问题,提高军棋AI对战人类时的表现。对于军棋爱好者的训练以及研究具有较大意义,提供了人机对战以及军棋AI自我对弈训练功能。

主权项:1.一种基于深度蒙特卡洛的强化学习军棋AI系统,其特征在于,所述系统包括:军棋对战模块、军棋招法生成模块、军棋特征采集模块、军棋招法决策模块以及决策评估模块;所述军棋对战模块,用于对行棋双方局势的展示、双方决策的执行与交互,并判断棋子间交战的结果;所述军棋招法生成模块,通过检索当前棋局情况并给出当前玩家所有可行的招法,并送入军棋特征采集模块;所述军棋特征采集模块,从军棋对战模块中获得当前己方棋子信息、敌方棋子信息以及双方最近几步的招法,从军棋招法生成模块获得所有可行招法,将这些数据转化为合适的编码格式作为状态值输入军棋招法决策模块;所述军棋招法决策模块,分为训练阶段和实际对战阶段;其中,所述训练阶段包括:根据输入的状态值采用深度蒙特卡洛网络决策技术生成对当前玩家所有可行招法的评估值,即对当前局面下该玩家所有的可行招法进行评估,然后选择估值最大的招法,不断进行抉择直至对局结束分出胜负,根据决策评估模块的最终的反馈信息,训练决策网络,优化决策网络的参数;所述训练阶段的训练方法具体包括如下内容:A1、为两位玩家建立经验池B1、B2,所述经验池是一种存储,分别存储两位玩家对战中每回合的输入特征F,人为设定经验池的上限为S,当经验池存储达到S时,则进行训练来清空经验池并重新开始存储;A2、为两位玩家建立决策网络Q1、Q2,所述决策网络可以读取输入特征F并给出估值,在回合t选出招法动作at的方法是:at=argmaxaQst,ap=1-εat=randomst,ap=ε每一回合的奖励值由最终的结果决定:rt←rt+γrt+1式中,st指第t回合,当前玩家视角下的棋盘状态;rt指第t回合,当前玩家操作获得的奖励值;argmaxa指从当前回合棋盘状态st与动作集合a通过决策网络Q计算得出的估值中选出最大估值的动作作为当前回合动作at;random指从当前回合动作集合a中随机选取一个动作作为当前回合动作at;ε指当前回合的探索概率;p指通过探索概率计算得出的动作方法的对应概率;γ是衰退因子,指当前回合奖励的计算由当前回合奖励以及一个经过衰退的下一回合奖励共同决定;A3、进行总次数为T次的经验池学习,每当一局游戏结束,将该局游戏积累下来的回合特征录入到经验池B中,经验池装满后进行一次学习,至到最终学到T次;A4、每一轮学习中,首先获得经验池B中特征Ft送入网络Q中,得到估值Gt,与记录的rt,使用均方误差来计算损失函数,并使用Adam算法解决网络Q学习率消失、收敛慢、参数更新异常的问题;所述实际对战阶段包括:经过充分训练后的决策模型不再更新网络参数,根据输入的状态值采用深度蒙特卡洛决策技术选出最优招法;所述决策评估模块,根据最终游戏结果来评估整局游戏中各个决策的分数,并生成反馈信息给军棋招法决策模块。

全文数据:

权利要求:

百度查询: 南华大学 一种基于深度蒙特卡洛的强化学习军棋AI系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。