买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法_哈尔滨工业大学_202110774457.8 

申请/专利权人:哈尔滨工业大学

申请日:2021-07-08

公开(公告)日:2024-03-29

公开(公告)号:CN113673672B

主分类号:G06N3/092

分类号:G06N3/092;G06N5/01;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.12.07#实质审查的生效;2021.11.19#公开

摘要:本发明公开一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法。步骤1:基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网络模型的输入及输出;步骤2:基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合;步骤3:利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖励数据更新策略价值网络;步骤4:利用步骤3更新的策略价值网络,指导蒙特卡洛树搜索;步骤5:重复步骤3‑步骤4得到训练好的策略价值网络。本发明用以解决难以获得有效数据集的策略决策的问题。

主权项:1.一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法,其特征在于,所述冰壶比赛策略生成方法包括以下步骤:步骤1:基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网络模型的输入及输出;步骤2:基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合;步骤3:利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖励数据更新策略价值网络;步骤4:利用步骤3更新的策略价值网络,指导蒙特卡洛树搜索;步骤5:重复步骤3-步骤4得到训练好的策略价值网络;所述步骤1包括以下步骤:步骤1.1:将状态空间和动作空间进行离散化,并设计策略价值网络的输入和输出;步骤1.2:基于步骤1.1的策略价值网络的输入和输出,设计策略价值网络结构;所述步骤1.1包括以下步骤:步骤1.1.1:将冰壶状态空间和动作空间进行离散化,设计网络的状态输入,基于冰壶比赛状态,提取出7维特征,包括冰壶发球顺序、冰壶位置与大本营中心的距离顺序,网络输入为32*32*29的图像信息;步骤1.1.2:将冰壶状态空间和动作空间进行离散化,设计网络的输出,策略输出为离散化后2048个不同动作的概率,价值输出为由输入状态到本局游戏结束可能取得17种不同得分的概率;步骤1.1.3:基于稠密卷积网络特点设计策略价值网络,最终网络公共部分有四个稠密卷积块,策略输出与价值输出部分具有不同的卷积层与全连接层;所述步骤2包括以下步骤:步骤2.1:将策略网络与改进的蒙特卡洛树搜索结合;步骤2.2:价值网络与改进的蒙特卡洛树搜索结合;所述步骤2具体为,将节点状态输入到策略价值网络,得到策略输出并将不同动作及其概率扩展到蒙特卡洛树中作为该节点的子节点,代替原蒙特卡洛树搜索的扩展步骤;将节点状态输入到策略价值网络,得到价值输出并求取期望作为该节点的价值,代替原蒙特卡洛树搜索的模拟步骤;所述步骤3将结合了策略网络和价值网络的蒙特卡洛树搜索进行自我对弈具体为:给定策略价值网络参数fθ和初始的冰壶状态S,经搜索得到动作概率分布即π=αθs,对弈一局结束后得到最终奖励Z,将该局对弈的每个时间步骤t的对弈数据[St,πt,Zt]存入记忆池;所述步骤4训练策略价值网络,在记忆池中进行均匀采样得到训练数据[St,πt,Zt],策略价值网络输入为S,输出为策略p与价值v,将π,Z作为监督学习的标签数据训练策略价值网络,训练网络使p,v≈π,Z;并且将经过更新的网络与蒙特卡洛树搜索结合。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。