申请/专利权人:季华实验室
申请日:2020-07-14
公开(公告)日:2024-02-23
公开(公告)号:CN111897327B
主分类号:G05D1/43
分类号:G05D1/43;G05D1/633;G05D1/644;G05D1/693;G05D1/692;G05D1/648;G05D109/10
优先权:
专利状态码:有效-授权
法律状态:2024.02.23#授权;2020.11.24#实质审查的生效;2020.11.06#公开
摘要:本发明提供了一种多移动机器人控制分派模型获取方法、装置、电子设备,通过获取各移动机器人的初始位置信息和身份识别信息;获取目标位置信息;获取多移动机器人分派模型;把初始位置信息、身份识别信息和目标位置信息输入多移动机器人分派模型中,以获取指派给各移动机器人的目的地信息和运动路径信息;把目的地信息和运动路径信息发送至对应的移动机器人;其中多移动机器人分派模型是基于多智能体强化学习算法的用于为多移动机器人指派目的地和规划运动路径的模型;从而能够快速地完成位置指派以及实时的运动规划,使多个移动机器人可以同时行动,无碰撞地完成位置指派任务。
主权项:1.一种多移动机器人分派模型获取方法,其特征在于,包括步骤:A1.根据多个移动机器人的初始位置信息、碰撞半径和预先设定的优先等级信息、应用场景的障碍物中心位置信息和碰撞半径信息、以及目标位置信息,建立多智能体强化学习算法模拟场景;在所述模拟场景中以每一个移动机器人作为一个智能体,并设定了每个智能体的可移动方向;A2.基于多智能体深度确定性策略梯度算法对每个智能体设置一个Actor网络和Critic网络;A3.根据预设的奖惩机制对所述Actor网络和Critic网络进行重复训练,以所有智能体的总奖励最大作为目标,直至各个智能体都已到达目标位置,且所有智能体获得的平均奖励不再提升;所述预设的奖惩机制为:以智能体与最接近的目标位置之间的距离为基础奖励,所述智能体发生碰撞时增加一个第一负值,在到达目标位置之前每多执行一次探索则增加一个第二负值;步骤A3中,以移动机器人的优先等级信息作为对应智能体的权重值;以所有智能体获取的奖励值的加权重和作为所述总奖励;且所述平均奖励用以下公式计算: ;其中,为平均奖励,为第i个智能体的奖励值,为第i个智能体的权重值。
全文数据:
权利要求:
百度查询: 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。