申请/专利权人:华南理工大学
申请日:2021-04-23
公开(公告)日:2024-04-26
公开(公告)号:CN113011526B
主分类号:G06F18/214
分类号:G06F18/214;G06N3/0464;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.26#授权;2021.07.09#实质审查的生效;2021.06.22#公开
摘要:本发明公开了一种基于强化学习和无监督学习的机器人技能学习方法及系统,在执行某一指定任务时,机器人控制器控制执行机构作出动作,图像采集子系统采集执行机构在任务环境下的实时状态图像,无监督学习子系统的编码器将实时状态图像转换成实时状态编码,以及以设定的执行机构执行完成指定任务时的状态图像作为目标图像,将其转换成目标编码;深度强化学习子系统再根据实时状态编码和目标编码,输出下一时刻执行机构的动作值;机器人控制器根据执行机构的动作值,实时控制执行机构作出相应动作,直至执行机构执行完成任务。本发明系统相比于普通的端到端网络,更加具有通用性,不仅可以应用于不同的目标以及任务,也可以压缩训练时间。
主权项:1.基于强化学习和无监督学习的机器人技能学习方法,其特征在于,包括如下步骤:S1、机器人控制器先使用蒙特卡洛树搜索来控制执行机构在任务环境中作出随机动作;图像采集子系统采集执行机构的实时状态图像,并将实时状态图像传输给无监督学习子系统;S2、无监督学习子系统利用实时状态图像进行无监督学习:先令内部的编码器将实时状态图像转换成实时状态编码,再令内部的解码器将实时状态编码还原为实时状态图像,直至解码器所还原出来的实时状态图像为原输入图像,此时无监督学习子系统即训练完成;S3、利用训练完成后的编码器将实时状态图像转换成实时状态编码,然后以某一时刻的实时状态编码作为深度强化学习子系统的输入,深度强化学习子系统输出下一时刻执行机构的动作值,并以下一时刻的实时状态编码和目标编码之间的相似度计算奖励函数,由此进行深度强化学习子系统的更新;S4、设定在任务环境下执行机构执行完成某一指定任务时的状态图像,并将其作为目标图像;S5、机器人控制器先根据指定任务,控制执行机构作出动作,图像采集子系统采集执行机构执行过程中的实时状态图像,并将实时状态图像传输给无监督学习子系统;S6、训练完成后的无监督学习子系统的编码器将实时状态图像转换成实时状态编码,以及将输入的目标图像转换成目标编码;训练完成后的深度强化学习子系统以实时状态编码作为输入,输出下一时刻执行机构的动作值,以下一时刻的实时状态编码和目标编码之间的相似度计算奖励函数;机器人控制器根据执行机构的动作值,实时控制执行机构作出相应动作;S7、重复步骤S5~S6,直至执行机构执行完成任务。
全文数据:
权利要求:
百度查询: 华南理工大学 基于强化学习和无监督学习的机器人技能学习方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。