【发明授权】基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统_中国人民解放军国防科技大学_202111680444.0

申请/专利权人：中国人民解放军国防科技大学

申请日：2021-12-31

公开（公告）日：2024-04-16

公开（公告）号：CN114454160B

主分类号：B25J9/16

分类号：B25J9/16

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2022.05.27#实质审查的生效;2022.05.10#公开

摘要：本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，步骤包括：S1.在智能体与环境交互过程中使用第一控制策略采集样本，构造基函数；S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本，使用基函数构造样本特征并放入经验池；S3.由Critic模块从经验池中采样，使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数；Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度，更新Actor的权值系数，获得最终的控制策略；S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。

主权项：1.一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，步骤包括：S1.基函数学习：在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据，所述状态为机械臂夹爪位姿和抓取目标位姿之间的偏差量，所述动作为机械臂各关节角度增量，构成初始状态－动作对样本集，根据所述初始状态－动作对样本集构造基函数，所述第一控制策略为随机策略或基于先验知识的控制策略；S2.样本采集：在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集状态与对应的动作的样本数据，得到状态－动作对，使用所述基函数构造所述状态－动作对的样本特征并放入经验池；S3.强化学习：由Critic模块从所述经验池中采样，使用最小二乘软贝尔曼残差更新所述Critic模块的权值系数并计算软状态动作值函数；所述Actor模块通过最小化策略分布、所述软状态动作值函数的玻尔兹曼分布的KL散度，更新所述Actor模块的权值系数，最终获得一个近似最优的最终的控制策略；S4.抓取控制：按照步骤S3最终获得的所述控制策略控制智能体的机械臂抓取；所述步骤S1中，通过在样本空间利用近似线性相关ALD的核稀疏化方法构造所述基函数，步骤包括：S11.将所述状态－动作样本对使用核函数投影到高维空间；S12.获取所述高维空间中样本之间的线性相关性；S13.选出线性无关的目标子样本作为核词典；S14.利用高斯函数构造样本点所对应的基函数所述步骤S3中，所述Critic模块具体以核特征基函数为输入，采用线性结构逼近所述软状态动作值函数，基于最小化软贝尔曼残差，根据软贝尔曼残差不动点公式，在样本集中抽取一批次样本对所述Critic模块中参数权值进行更新；所述Actor模块具体以核特征基函数为输入，根据重参数方法选取动作，通过将最小化策略分布、软动作值函数玻尔兹曼分布的KL散度最小化以最小化两个分布之间的差异，然后以策略梯度的方式对策略函数进行更新；所述步骤S3中，所述Actor模块具体采用如下式的策略函数更新公式，以最小化软状态动作值函数的玻尔兹曼分布的KL散度：其中，πnew为最优更新策略，Qst,·为Critic模块生成的st下的软状态动作值函数，Zst为归一化系数，DKL·||·为最小化策略分布、软动作值函数玻尔兹曼分布两个分布的KL散度，Π为策略族，π′为策略簇Π中的策略之一。

全文数据：

权利要求：

百度查询：中国人民解放军国防科技大学基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

下一篇：一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

相关技术

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

臂相关技术

坐标定位臂_瑞尼斯豪公司_202080086167.8

一种喷水雨刮臂_江苏云睿汽车电器系统有限公司_202322409507.X

机械臂拖动示教装置_广东天机智能系统有限公司_202322399966.4

一种流体装卸臂_连云港远大机械有限公司_202322494082.7

一种机械臂导航手术中机械臂配准模块误差校准方法_杭州邦杰星医疗科技有限公司_202310327128.8

柔性机械臂及其控制方法、计算机装置_华为技术有限公司_202211292366.1

一种隧道施工用机械臂_中国铁建高新装备股份有限公司_202322518775.5

机械臂的末端适配器的控制方法_武汉联影智融医疗科技有限公司_202210179785.8

机械臂、关节机构及关节机构控制方法_联想(北京)有限公司_202210736657.9

一种压臂式折弯送料装置_佛山市南海力钏冷轧机械有限公司_202322683224.4

残相关技术

对抗残差图变分自编码器的社交网络链接预测方法及系统_北京邮电大学_202110893417.5

辣椒农残高效清洗机_昊亿工贸(会泽)有限公司_202321948587.X

用于电池的残液处理装置_比亚迪股份有限公司_202322347406.4

一种残膜回收机的拐臂结构及残膜回收机_沙雅钵施然智能农机有限公司_202210853367.2

一种低温残液喷射器_苏州邦博锐机电工程有限公司_202322497889.6

鱼类学实验残饵收集装置_水利部中国科学院水工程生态研究所_202322656222.6

基于轻量化残差网络的图像分类方法_西安电子科技大学_202111048042.9

一种驱残液嵌锁式快速连接装置_连云港天邦科技开发有限公司_202311659218.3

一种改善钠离子层状正极材料表面残碱的方法_湖北融通高科先进材料集团股份有限公司_202211546142.9

在图像编译系统中使用残差信息的图像解码方法及其装置_OPPO广东移动通信有限公司_202410002459.9

机械相关技术

电动式作业机械_洋马控股株式会社_202311356465.6

散包装车机械手_金石机器人常州股份有限公司_202322719122.3

作业机械以及设备用钩_工机控股株式会社_202311312008.7

球磨机械紧急制动系统_高士伟_202211290205.9

照明装置和工程机械_三一重机有限公司_202010617584.2

机械臂拖动示教装置_广东天机智能系统有限公司_202322399966.4

一种机械臂导航手术中机械臂配准模块误差校准方法_杭州邦杰星医疗科技有限公司_202310327128.8

基于六轴机械臂的移栽机及机械化移栽、采摘系统和方法_江苏省农业科学院_201810583869.1

一种机械手臂的转轴结构_苏州言若自动化科技有限公司_202322710565.6

柔性机械臂及其控制方法、计算机装置_华为技术有限公司_202211292366.1

龙图腾网&IPTOP

【发明授权】基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统_中国人民解放军国防科技大学_202111680444.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务