买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法_浙江大学_202211451088.X 

申请/专利权人:浙江大学

申请日:2022-11-20

公开(公告)日:2023-03-28

公开(公告)号:CN115861596A

主分类号:G06V10/25

分类号:G06V10/25;G06V10/774;G06V10/82;G06N3/047;G06N3/08;G06N3/0464

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.04.14#实质审查的生效;2023.03.28#公开

摘要:本发明公开了一种基于视觉‑语言‑动作联合建模的杂乱场景目标物体抓取的方法。本发明利用以物体为中心的表征,实现了一种基于视觉‑语言‑动作联合建模的杂乱场景目标物体抓取的方法,通过预训练的视觉‑语言模型和抓取模型处理以物体为中心的表征,获得各个包围框的视觉‑语言特征和抓取特征,并利用transformer实施视觉‑语言‑动作多模态之间的交叉注意力机制,生成视觉‑语言‑动作交叉注意力特征,进而生成决策并执行,实现了更高的样本利用率,避免了仿真‑实物迁移过程的额外数据收集和训练;相对于两阶段策略,无需人为设计语言‑视觉匹配的视觉属性和规划器的筛选规则,从而能适应更灵活的语言指令,达到更好的任务泛化性。

主权项:1.一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法,其特征在于,包括:步骤1:给定场景和语言指令;步骤2:获取场景的RGB-D图像,通过开放集物体检测算法获取场景中的物体包围框;步骤3:通过预训练的视觉-语言算法模型得到步骤1中语言指令的语言特征和步骤2中所有物体包围框的视觉特征;步骤4:根据获取的场景RGB-D图像,通过预训练的抓取算法模型预测出场景中的抓取位姿集合,各个抓取姿态通过抓取编码网络编码为抓取动作特征;步骤5:根据步骤3中获得的语言特征、所有物体包围框的视觉特征和步骤4中获得的抓取动作特征,利用transformer实施多模态之间的交叉注意力机制,生成视觉-语言-动作交叉注意力特征;步骤6:根据步骤5获得的视觉-语言-动作交叉注意力特征,通过策略网络生成所有抓取位姿的概率值,通过价值网络生成所有抓取位姿的评价值;步骤7:根据步骤6得到的抓取位姿的概率值选取抓取动作,机器人执行对应的抓取位姿并移动到固定的放置位置;步骤8:重复步骤2-7直到成功抓取语言指定的目标物体直到完成任务,尝试次数在指定次数以内。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于视觉-语言-动作联合建模的杂乱场景目标物体抓取的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。