买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3 

申请/专利权人:清华大学

申请日:2023-12-28

公开(公告)日:2024-04-23

公开(公告)号:CN117474077B

主分类号:G06N3/092

分类号:G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要:本公开提供了一种基于OAR模型与强化学习的辅助决策方法和装置,涉及强化学习技术领域,旨在准确预测出代理的动作概率分布。所述方法包括:获取每个代理观测到的各个目标的属性集合;对每个代理观测到的各个目标的属性集合进行图推理计算,得到每个代理的属性集合矩阵;获取关系邻接矩阵;将每个代理的属性集合矩阵和关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将背景特征附加到目标属性矩阵,得到每个代理在每一时刻观测到的OAR全局特征;利用循环神经网络对OAR全局特征进行处理,得到每个代理对应的融合了历史信息的目标OAR全局特征;基于目标OAR全局特征,确定代理的动作。

主权项:1.一种基于OAR模型与强化学习的辅助决策方法,其特征在于,适应于足球场景,应用于策略网络,所述策略网络包括循环神经网络和每类玩家对应的动作网络,所述策略网络是进行强化学习得到的,所述OAR模型为目标-属性-关系模型;所述方法包括:设置数据缓存区;对所述策略网络进行模拟和训练,在对所述策略网络进行的每一轮模拟中,清空所述数据缓存区,并保留所述策略网络在前一轮的最后一步RNN状态,基于所述策略网络在前一轮的最后一步RNN状态进行模拟,并将当前步的数据存储到所述数据缓存区;所述当前步的数据包括环境观测;所述环境观测是以球场的绝对参考系为基准得到的;获取每个所述玩家观测到的各个目标的属性集合,所述目标包括所述玩家;所述目标的属性包括动态属性和静态属性,所述静态属性至少包括以下任意一项或多项:类别信息、排序信息和固有能力;对每个所述玩家观测到的所述各个目标的属性集合进行图推理计算,得到每个所述玩家的属性集合矩阵;获取所述各个目标之间的关系,根据所述各个目标之间的关系,得到关系邻接矩阵;将每个所述玩家的属性集合矩阵和所述关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将所述背景特征附加到所述目标属性矩阵,得到每个所述玩家在每一时刻观测到的OAR全局特征;利用所述循环神经网络对所述OAR全局特征进行处理,得到每个所述玩家对应的融合了历史信息的目标OAR全局特征;将每个所述玩家对应的所述目标OAR全局特征输入所述玩家对应的动作网络,得到每个所述玩家的动作概率分布;根据每个所述玩家的动作概率分布,确定所述玩家的动作。

全文数据:

权利要求:

百度查询: 清华大学 一种基于OAR模型与强化学习的辅助决策方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。