买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于视觉文本关系对齐的无监督三维视觉定位方法及系统_四川大学;中国科学院光电技术研究所_202311339921.6 

申请/专利权人:四川大学;中国科学院光电技术研究所

申请日:2023-10-17

公开(公告)日:2024-04-12

公开(公告)号:CN117274388B

主分类号:G06T7/73

分类号:G06T7/73;G06V10/80;G06V10/82;G06V10/774;G06V10/764;G06N3/088

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2024.01.09#实质审查的生效;2023.12.22#公开

摘要:本发明公开了基于视觉文本关系对齐的无监督三维视觉定位方法及系统,涉及三维视觉定位技术领域。包括:S1.获取图像步骤;S2.获取点云特征步骤;S3.生成实例分割掩码步骤;S4.获取关系感知图像特征步骤;S5.输出目标建议点步骤;S6.获取三维视觉定位框步骤;S7.获取训练模型步骤;S8.视觉定位预测步骤。本发明利用二维图像‑文本对比预训练模型中图像与文本特征空间的对齐关系,用图像特征代替文本特征,与三维点云进行融合匹配,实现无需文本标注的任务学习;再通过显式的空间关系感知,借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系,保证模型具备对伪文本和点云中复杂空间关系的理解能力。

主权项:1.一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,包括以下步骤:S1.获取图像步骤:获取原始三维点云场景以及原始三维点云场景对应的二维多视图图像;S2.获取点云特征步骤:将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;S3.生成实例分割掩码步骤:将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;S4.获取关系感知图像特征步骤:将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;S5.输出目标建议点步骤:对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;S6.获取三维视觉定位框步骤:利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;S7.获取训练模型步骤:通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;S8.视觉定位预测步骤:保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。

全文数据:

权利要求:

百度查询: 四川大学;中国科学院光电技术研究所 基于视觉文本关系对齐的无监督三维视觉定位方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。