【发明授权】一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法_哈尔滨工业大学_202110774457.8

导航：龙图腾网> 最新专利技术> 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法_哈尔滨工业大学_202110774457.8

申请/专利权人：哈尔滨工业大学

申请日：2021-07-08

公开（公告）日：2024-03-29

公开（公告）号：CN113673672B

主分类号：G06N3/092

分类号：G06N3/092;G06N5/01;G06N3/0464

优先权：

专利状态码：有效-授权

法律状态：2024.03.29#授权;2021.12.07#实质审查的生效;2021.11.19#公开

摘要：本发明公开一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法。步骤1：基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网络模型的输入及输出；步骤2：基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合；步骤3：利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖励数据更新策略价值网络；步骤4：利用步骤3更新的策略价值网络，指导蒙特卡洛树搜索；步骤5：重复步骤3‑步骤4得到训练好的策略价值网络。本发明用以解决难以获得有效数据集的策略决策的问题。

主权项：1.一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法，其特征在于，所述冰壶比赛策略生成方法包括以下步骤：步骤1：基于冰壶比赛状态及冰壶发球动作设计策略价值网络模型及价值网络模型的输入及输出；步骤2：基于步骤1策略价值网络的输出与改进的蒙特卡洛树搜索算法结合；步骤3：利用步骤2改进的蒙特卡洛树搜索算法通过自我对弈生成策略及奖励数据更新策略价值网络；步骤4：利用步骤3更新的策略价值网络，指导蒙特卡洛树搜索；步骤5：重复步骤3-步骤4得到训练好的策略价值网络；所述步骤1包括以下步骤：步骤1.1：将状态空间和动作空间进行离散化，并设计策略价值网络的输入和输出；步骤1.2：基于步骤1.1的策略价值网络的输入和输出，设计策略价值网络结构；所述步骤1.1包括以下步骤：步骤1.1.1：将冰壶状态空间和动作空间进行离散化，设计网络的状态输入，基于冰壶比赛状态，提取出7维特征，包括冰壶发球顺序、冰壶位置与大本营中心的距离顺序，网络输入为32*32*29的图像信息；步骤1.1.2：将冰壶状态空间和动作空间进行离散化，设计网络的输出，策略输出为离散化后2048个不同动作的概率，价值输出为由输入状态到本局游戏结束可能取得17种不同得分的概率；步骤1.1.3：基于稠密卷积网络特点设计策略价值网络，最终网络公共部分有四个稠密卷积块，策略输出与价值输出部分具有不同的卷积层与全连接层；所述步骤2包括以下步骤：步骤2.1：将策略网络与改进的蒙特卡洛树搜索结合；步骤2.2：价值网络与改进的蒙特卡洛树搜索结合；所述步骤2具体为，将节点状态输入到策略价值网络，得到策略输出并将不同动作及其概率扩展到蒙特卡洛树中作为该节点的子节点，代替原蒙特卡洛树搜索的扩展步骤；将节点状态输入到策略价值网络，得到价值输出并求取期望作为该节点的价值，代替原蒙特卡洛树搜索的模拟步骤；所述步骤3将结合了策略网络和价值网络的蒙特卡洛树搜索进行自我对弈具体为：给定策略价值网络参数fθ和初始的冰壶状态S，经搜索得到动作概率分布即π＝αθs，对弈一局结束后得到最终奖励Z，将该局对弈的每个时间步骤t的对弈数据[St,πt,Zt]存入记忆池；所述步骤4训练策略价值网络，在记忆池中进行均匀采样得到训练数据[St,πt,Zt]，策略价值网络输入为S，输出为策略p与价值v，将π,Z作为监督学习的标签数据训练策略价值网络，训练网络使p,v≈π,Z；并且将经过更新的网络与蒙特卡洛树搜索结合。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

下一篇：一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

相关技术

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

比赛相关技术

基于人工智能剪辑足球比赛的方法及系统_杭州当虹科技股份有限公司_202311731213.7

基于智能手环的比赛记录方法_深圳市爱保护科技有限公司_202410062517.7

基于Robomaster比赛的半下供弹步兵机器人_齐鲁工业大学(山东省科学院)_202311794039.0

篮球比赛视频的球员动作识别方法、装置和设备_北京影谱科技股份有限公司_202010864529.3

电动汽车比赛的驾驶模式选择_通用汽车环球科技运作有限责任公司_202310521778.6

沉浸式和反应式游戏比赛靶场、系统和过程_飞钉科技有限责任公司_202311162084.4

一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法_哈尔滨工业大学_202110774457.8

一种棋类比赛直播方法、装置、设备及存储介质_咪咕互动娱乐有限公司_202311862531.7

一种射击比赛倒计时钟固定机构_乐陵市友谊体育器材有限责任公司_202322021039.9

一种新型比赛航道_杭州千岛湖培生船艇有限公司_202410036580.3

冰壶相关技术

一种壶铃外壳的成型模具及壶铃外壳的成型工艺_南通鑫鑫体育运动用品有限公司_201910500323.X

超疏水和防疏冰微纳结构层及超疏水和防疏冰材料_武汉纺织大学_202210429502.0

一种过滤式陶瓷咖啡壶_福建省德化县华凉陶瓷有限公司_202322432448.8

一种磁吸出水的蒸汽壶_永康市一窝蜂科技有限公司_202322374859.6

一种冰形可切换制冰机_常熟市雪科电器有限公司_202322605847.X

一种分体式方形冰制冰机_常熟市雪科电器有限公司_202322661105.9

一种冰壶击打自动化学习与决策搜索方法_上海交通大学_202410066718.4

一种冰壶形双参量宽范围测量PCF传感器及其制造方法_燕山大学_202311546960.3

基于动态融冰电流的高效OPGW融冰方法_华北电力大学(保定)_202410053668.6

一种壶体及其壶盖_杭州市上城区品沐尚品家居用品商行_202322753756.0

策略相关技术

海上风机组并网策略控制方法、装置、设备及介质_北京华能新锐控制技术有限公司_202211297208.5

一种多智能体追逃问题建模与围捕策略生成方法_西北工业大学_202210104867.6

基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2

基于用户行为轨迹的服务策略分配方法、装置及电子设备_上海淇玥信息技术有限公司_202011132006.6

基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

一种基于层介数连边策略的指挥控制超网络建模方法_岭南师范学院_202210846478.0

用于调整至少部分自动化驾驶的车辆的驾驶策略的方法和设备_大众汽车有限公司_202010221864.1

策略控制方法、设备及系统_华为技术有限公司_201910684221.8

用于接入和移动性策略决策的方法_中兴通讯股份有限公司_202180101947.X

基于动态升级策略的OTA升级方法_珠海亿智电子科技有限公司_202410042785.2

龙图腾网&IPTOP

【发明授权】一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法_哈尔滨工业大学_202110774457.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务