【发明授权】一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

导航：龙图腾网> 最新专利技术> 一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

申请/专利权人：清华大学

申请日：2023-12-28

公开（公告）日：2024-04-23

公开（公告）号：CN117474077B

主分类号：G06N3/092

分类号：G06N3/092

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要：本公开提供了一种基于OAR模型与强化学习的辅助决策方法和装置，涉及强化学习技术领域，旨在准确预测出代理的动作概率分布。所述方法包括：获取每个代理观测到的各个目标的属性集合；对每个代理观测到的各个目标的属性集合进行图推理计算，得到每个代理的属性集合矩阵；获取关系邻接矩阵；将每个代理的属性集合矩阵和关系邻接矩阵进行推理计算，得到融合了全图信息的目标属性矩阵；从环境背景中提取背景特征，将背景特征附加到目标属性矩阵，得到每个代理在每一时刻观测到的OAR全局特征；利用循环神经网络对OAR全局特征进行处理，得到每个代理对应的融合了历史信息的目标OAR全局特征；基于目标OAR全局特征，确定代理的动作。

主权项：1.一种基于OAR模型与强化学习的辅助决策方法，其特征在于，适应于足球场景，应用于策略网络，所述策略网络包括循环神经网络和每类玩家对应的动作网络，所述策略网络是进行强化学习得到的，所述OAR模型为目标-属性-关系模型；所述方法包括：设置数据缓存区；对所述策略网络进行模拟和训练，在对所述策略网络进行的每一轮模拟中，清空所述数据缓存区，并保留所述策略网络在前一轮的最后一步RNN状态，基于所述策略网络在前一轮的最后一步RNN状态进行模拟，并将当前步的数据存储到所述数据缓存区；所述当前步的数据包括环境观测；所述环境观测是以球场的绝对参考系为基准得到的；获取每个所述玩家观测到的各个目标的属性集合，所述目标包括所述玩家；所述目标的属性包括动态属性和静态属性，所述静态属性至少包括以下任意一项或多项：类别信息、排序信息和固有能力；对每个所述玩家观测到的所述各个目标的属性集合进行图推理计算，得到每个所述玩家的属性集合矩阵；获取所述各个目标之间的关系，根据所述各个目标之间的关系，得到关系邻接矩阵；将每个所述玩家的属性集合矩阵和所述关系邻接矩阵进行推理计算，得到融合了全图信息的目标属性矩阵；从环境背景中提取背景特征，将所述背景特征附加到所述目标属性矩阵，得到每个所述玩家在每一时刻观测到的OAR全局特征；利用所述循环神经网络对所述OAR全局特征进行处理，得到每个所述玩家对应的融合了历史信息的目标OAR全局特征；将每个所述玩家对应的所述目标OAR全局特征输入所述玩家对应的动作网络，得到每个所述玩家的动作概率分布；根据每个所述玩家的动作概率分布，确定所述玩家的动作。

全文数据：

权利要求：

百度查询：清华大学一种基于OAR模型与强化学习的辅助决策方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

下一篇：一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

相关技术

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种计算机机箱外壳_深圳市丰翼高精密五金有限公司_202322585533.8

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

龙图腾网&IPTOP

【发明授权】一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务