买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于图像的三维物体可供性定位方法_中国科学技术大学_202311448957.8 

申请/专利权人:中国科学技术大学

申请日:2023-11-02

公开(公告)日:2024-01-30

公开(公告)号:CN117475168A

主分类号:G06V10/44

分类号:G06V10/44;G06V10/25;G06N3/0464;G06N3/045;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.20#实质审查的生效;2024.01.30#公开

摘要:本发明公开了一种基于图像的三维物体可供性定位方法,其步骤包括:1、提取图像的特征和三维点云的特征;2、计算图像中物体的特征与点云物体逐点特征之间的对应性;3、可供性特征提取;4、解码多模态物体特征及多模态可供性特征;5、将解码的三维可供性映射至三维物体;6、构建损失监督函数并训练。本发明将图像与点云中的物体在语义空间对齐,并通过图像中的交互内容来定位三维物体的可供性,从而能有效的完成三维物体可供性标定任务。

主权项:1.一种基于图像的三维物体可供性定位方法,其特征在于,包括以下步骤:步骤1、提取图像的特征和三维点云的特征:步骤1.1、提取图像的特征;获取一个批次的图像{I1,I2,...,Ib,...,IB},代表第b张图像,其中,B代表一个批次的图像的数量,C代表一张图像的通道数量,W,H分别代表图像的宽和长;将第b张图像Ib进行归一化处理后输入ResNet18网络中,并得到特征向量其中,W1,H1分别为采样后的特征向量的宽和高,C1代表特征向量的通道数;步骤1.2、提取点云的特征;获取同一个批次的物体点云数据{P1,P2,...,Pb,...,PB},代表第b个点云数据,N为每个点云数据中点的数量,3代表点云数据的空间维度;利用PointNet++网络提取Pb中点云物体的逐点特征步骤2、计算第b张图像Ib中物体的特征与点云物体的逐点特征FPb的对应性:步骤2.1、标定第b张图像Ib中物体的特征:用一个锚框Bob∈x1,y1,x2,y2标定出第b张图像Ib中属于物体的特征,其中,x1,y1代表一个锚框Bob的左上角顶点的坐标,x2,y2代表锚框Bob右下角顶点的坐标;使用ROI-Align算法对锚框Bob内的特征进行池化处理后再进行展平,从而得到第b张图像Ib中物体的特征其中,N′代物体特征Fob的像素点总和数;步骤2.2、计算物体特征Fob与逐点特征FPb对应性;步骤2.2.1、对逐点特征FPb进行转置后,得到转置后的逐点特征NP代表点云数据中点的个数;步骤2.2.2、对Fob和FP′b进行一次跨模态的交叉注意力计算:将Fob作为查询Query,FP′b作为键Key和值Value来更新Fob,随后将FP′b作为查询Query,Fob作为键Key和值Value来更新FP′b,从而将更新后的逐点特征FP″b和物体特征F′ob拼接为联合特征通过联合注意力机制算法计算FP″b和F′ob之间的多模态物体特征步骤3、可供性特征提取:步骤3.1、标定第b张图像Ib中交互主体特征和场景特征:使用一个锚框Bhb∈x′1,y′1,x′2,y′2定位出第b张图像Ib中交互主体特征,在Bob和Bhb之外特征即为场景特征;其中,x′1,y′1代表一个锚框Bhb的左上角顶点的坐标,x′2,y′2代表锚框Bhb右下角顶点的坐标;通过ROI-Align算法将交互主体特征和场景特征进行池化后,得到相同尺寸的交互主体特征Fhb和场景特征Fsb;步骤3.2、可供性特征计算:将作为共享的查询Query,Fhb和Fsb分别作为键Key和值Value,从而对Fhb和Fsb进行跨模态的双分支交叉注意力计算,得到两个分支更新后的特征和对Fb1和Fb2拼接后再进行卷积的计算,得到多模态可供性特征步骤4.解码多模态物体特征及多模态可供性特征按照拼接时的顺序,将拆分为图像的物体特征和点云物体特征按照拼接时的顺序,将拆分成为图像可供性特征和点云可供性特征步骤5.输出映射:将和进行点乘后,再通过一个MLP层的映射,得到第b个点云数据Pb对应的三维可供性向量θb;将输入一个MLP层和池化层中进行处理,并输出第b张图像Ib对应的可供性类别的逻辑向量yb;步骤6、构建损失监督函数并训练:步骤6.1、利用式1构建最终的损失函数 式1中,表示三维可供性热力图损失,表示交叉熵类别损失;表示KL散度损失;步骤6.2、利用梯度下降法对损失函数进行优化,使得损失函数收敛为止,从而得到三维物体可供性定位模型,用于实现对任意输入的图像和点云数据对进行三维可供性的定位。

全文数据:

权利要求:

百度查询: 中国科学技术大学 一种基于图像的三维物体可供性定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。