买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统_中国人民解放军国防科技大学_202111680444.0 

申请/专利权人:中国人民解放军国防科技大学

申请日:2021-12-31

公开(公告)日:2024-04-16

公开(公告)号:CN114454160B

主分类号:B25J9/16

分类号:B25J9/16

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.05.27#实质审查的生效;2022.05.10#公开

摘要:本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。

主权项:1.一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,其特征在于,步骤包括:S1.基函数学习:在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据,所述状态为机械臂夹爪位姿和抓取目标位姿之间的偏差量,所述动作为机械臂各关节角度增量,构成初始状态-动作对样本集,根据所述初始状态-动作对样本集构造基函数,所述第一控制策略为随机策略或基于先验知识的控制策略;S2.样本采集:在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集状态与对应的动作的样本数据,得到状态-动作对,使用所述基函数构造所述状态-动作对的样本特征并放入经验池;S3.强化学习:由Critic模块从所述经验池中采样,使用最小二乘软贝尔曼残差更新所述Critic模块的权值系数并计算软状态动作值函数;所述Actor模块通过最小化策略分布、所述软状态动作值函数的玻尔兹曼分布的KL散度,更新所述Actor模块的权值系数,最终获得一个近似最优的最终的控制策略;S4.抓取控制:按照步骤S3最终获得的所述控制策略控制智能体的机械臂抓取;所述步骤S1中,通过在样本空间利用近似线性相关ALD的核稀疏化方法构造所述基函数,步骤包括:S11.将所述状态-动作样本对使用核函数投影到高维空间;S12.获取所述高维空间中样本之间的线性相关性;S13.选出线性无关的目标子样本作为核词典;S14.利用高斯函数构造样本点所对应的基函数所述步骤S3中,所述Critic模块具体以核特征基函数为输入,采用线性结构逼近所述软状态动作值函数,基于最小化软贝尔曼残差,根据软贝尔曼残差不动点公式,在样本集中抽取一批次样本对所述Critic模块中参数权值进行更新;所述Actor模块具体以核特征基函数为输入,根据重参数方法选取动作,通过将最小化策略分布、软动作值函数玻尔兹曼分布的KL散度最小化以最小化两个分布之间的差异,然后以策略梯度的方式对策略函数进行更新;所述步骤S3中,所述Actor模块具体采用如下式的策略函数更新公式,以最小化软状态动作值函数的玻尔兹曼分布的KL散度: 其中,πnew为最优更新策略,Qst,·为Critic模块生成的st下的软状态动作值函数,Zst为归一化系数,DKL·||·为最小化策略分布、软动作值函数玻尔兹曼分布两个分布的KL散度,Π为策略族,π′为策略簇Π中的策略之一。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。