买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于数据增强预测模型的多机器人围捕方法_天翼云科技有限公司_202311721142.2 

申请/专利权人:天翼云科技有限公司

申请日:2023-12-14

公开(公告)日:2024-04-12

公开(公告)号:CN117872742A

主分类号:G05B13/04

分类号:G05B13/04;G06N3/008

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于数据增强预测模型的多机器人围捕方法,主要流程包括构建多机器人围捕场景、为每个机器人搭建QMIX算法网络和数据预测模型、搭建经验数据数据预测模型、在环境中执行每个机器人的动作,获得环境返回的联合奖励、输入数据预测模型,获得预测数据。将真实训练数据样本和预测数据样本存入经验回放缓存区、使用采样后的经验数据对DQN网络、MIX网络和数据预测模型进行训练、以软更新的方式更新目标MIX网络以及使用训练后的QMIX网络模型进行机器人行为控制。本发明通过数据增强预测模型进行预测数据生成,将预测数据与真实经验数据结合,提高采样效率。

主权项:1.一种基于数据增强预测模型的多机器人围捕方法,其特征在于:所述方法的流程包括以下步骤:S1:构建多机器人围捕场景,场景为正方形,大小为d×d的二维平面。在时刻t时,围捕机器人的标识为i∈{1,2,...,n},机器人的位置为Pit=xit,yit,围捕目标e的位置为Pet=xet,yet。机器人和目标的距离为: S2:设定当前任务的决策目标,在围捕的过程中,当一个机器人和目标的距离小于dc时,围捕成功,围捕决策目标为:对于任意两个机器人i和j,距离为S3:设置围捕机器人的状态空间s,状态空间由机器人GPS传感器、速度传感器和接收机来获取;S4:为每个机器人搭建QMIX算法网络和数据预测模型,每个机器人分别搭建一个DQN网络,并共享一个MIX网络;S5:训练QMIX网络模型;S6:使用采样后的经验数据对DQN网络、MIX网络和数据预测模型进行训练;S7:若当前经验条目大于N时,删除最早加入经验回放缓存区的经验条目;S8:以软更新的方式更新目标MIX网络;S9:将当前训练步长t与最大训练步长T进行比较,若t≥T,则返回S5中的训练步骤,且q=q+1,若当前q≥Q,则结束网络训练;S10:使用训练后的QMIX网络模型进行机器人行为控制,将当前时刻t的状态动作对st,at输入到训练后的DQN网络中,得到输出值Qt,然后将所有机器人的Qt值输入到MIX网络中,得到所有机器人的联合动作的输出At+1,该输出即为下个时刻机器人所要执行的动作。

全文数据:

权利要求:

百度查询: 天翼云科技有限公司 一种基于数据增强预测模型的多机器人围捕方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。