【发明公布】一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法_浙江大学_202211451088.X

申请/专利权人：浙江大学

申请日：2022-11-20

公开（公告）日：2023-03-28

公开（公告）号：CN115861596A

主分类号：G06V10/25

分类号：G06V10/25;G06V10/774;G06V10/82;G06N3/047;G06N3/08;G06N3/0464

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.04.14#实质审查的生效;2023.03.28#公开

摘要：本发明公开了一种基于视觉‑语言‑动作联合建模的杂乱场景目标物体抓取的方法。本发明利用以物体为中心的表征，实现了一种基于视觉‑语言‑动作联合建模的杂乱场景目标物体抓取的方法，通过预训练的视觉‑语言模型和抓取模型处理以物体为中心的表征，获得各个包围框的视觉‑语言特征和抓取特征，并利用transformer实施视觉‑语言‑动作多模态之间的交叉注意力机制，生成视觉‑语言‑动作交叉注意力特征，进而生成决策并执行，实现了更高的样本利用率，避免了仿真‑实物迁移过程的额外数据收集和训练；相对于两阶段策略，无需人为设计语言‑视觉匹配的视觉属性和规划器的筛选规则，从而能适应更灵活的语言指令，达到更好的任务泛化性。

主权项：1.一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法，其特征在于，包括：步骤1：给定场景和语言指令；步骤2：获取场景的RGB-D图像，通过开放集物体检测算法获取场景中的物体包围框；步骤3：通过预训练的视觉-语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征；步骤4：根据获取的场景RGB-D图像，通过预训练的抓取算法模型预测出场景中的抓取位姿集合，各个抓取姿态通过抓取编码网络编码为抓取动作特征；步骤5：根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征，利用transformer实施多模态之间的交叉注意力机制，生成视觉-语言-动作交叉注意力特征；步骤6：根据步骤5获得的视觉-语言-动作交叉注意力特征，通过策略网络生成所有抓取位姿的概率值，通过价值网络生成所有抓取位姿的评价值；步骤7：根据步骤6得到的抓取位姿的概率值选取抓取动作，机器人执行对应的抓取位姿并移动到固定的放置位置；步骤8：重复步骤2-7直到成功抓取语言指定的目标物体直到完成任务，尝试次数在指定次数以内。

全文数据：

权利要求：

百度查询：浙江大学一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

下一篇：一种用于降解餐厨垃圾的诱变菌株的复配及其应用_北京林业大学_202410173755.5

相关技术

POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

一种用于降解餐厨垃圾的诱变菌株的复配及其应用_北京林业大学_202410173755.5

一种新型射灯天线_摩比天线技术(深圳)有限公司_202410125372.0

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种全自动铜铝焊接装置_怀化亚信科技股份有限公司_202410351666.5

一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

基于扩散模型的双阶段无人机遥感图像识别方法_中国人民解放军国防科技大学_202410331538.4

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

龙图腾网&IPTOP

【发明公布】一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法_浙江大学_202211451088.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务