买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于深度蒙特卡洛的强化学习军棋AI系统_南华大学_202310825710.7 

申请/专利权人:南华大学

申请日:2023-07-06

公开(公告)日:2023-10-13

公开(公告)号:CN116881656A

主分类号:G06F18/20

分类号:G06F18/20;G06F18/22;G06N3/0442;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.10.31#实质审查的生效;2023.10.13#公开

摘要:本发明公开了一种基于深度蒙特卡洛的强化学习军棋AI系统,属于人工智能AI博弈技术领域;本发明提出一种基于深度蒙特卡洛的强化学习军棋AI系统,并进一步提出了与系统相匹配的训练方法和实际对战执行方法,利用深度蒙特卡洛方法以及棋子上下限评估算法,大大提升了军棋AI的表现,具有良好的现实意义和应用前景,填补了人工智能领域军棋AI的空白。本发明解决了军棋这一非完全信息博弈游戏的AI难以设计及训练等问题,提高军棋AI对战人类时的表现。对于军棋爱好者的训练以及研究具有较大意义,提供了人机对战以及军棋AI自我对弈训练功能。

主权项:1.一种基于深度蒙特卡洛的强化学习军棋AI系统,其特征在于,所述系统包括:军棋对战模块、军棋招法生成模块、军棋特征采集模块、军棋招法决策模块以及决策评估模块;所述军棋对战模块,用于对行棋双方局势的展示、双方决策的执行与交互,并判断棋子间交战的结果;所述军棋招法生成模块,通过检索当前棋局情况并给出当前玩家所有可行的招法,并送入军棋特征采集模块;所述军棋特征采集模块,从军棋对战模块中获得当前己方棋子信息、敌方棋子信息以及双方最近几步的招法,从军棋招法生成模块获得所有可行招法,将这些数据转化为合适的编码格式作为状态值输入军棋招法决策模块;所述军棋招法决策模块,分为训练阶段和实际对战阶段;其中,所述训练阶段包括:根据输入的状态值采用深度蒙特卡洛网络决策技术生成对当前玩家所有可行招法的评估值,即对当前局面下该玩家所有的可行招法进行评估,然后选择估值最大的招法,不断进行抉择直至对局结束分出胜负,根据决策评估模块的最终的反馈信息,训练决策网络,优化决策网络的参数;所述实际对战阶段包括:经过充分训练后的决策模型不再更新网络参数,根据输入的状态值采用深度蒙特卡洛决策技术选出最优招法;所述决策评估模块,根据最终游戏结果来评估整局游戏中各个决策的分数,并生成反馈信息给军棋招法决策模块。

全文数据:

权利要求:

百度查询: 南华大学 一种基于深度蒙特卡洛的强化学习军棋AI系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。