买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于注意力机制的多模态数据融合三维目标检测方法_西安电子科技大学_202210816612.2 

申请/专利权人:西安电子科技大学

申请日:2022-07-12

公开(公告)日:2022-09-20

公开(公告)号:CN115082674A

主分类号:G06V10/25

分类号:G06V10/25;G06N3/04;G06N3/08;G06V10/44;G06V10/774;G06V10/80;G06V10/82

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明提出了一种基于注意力机制的多模态数据融合三维目标检测方法,实现步骤为:建立训练和测试样本集并对数据进行预处理;构建基于注意力机制的多模态数据融合三维目标检测网络;定义基于注意力机制的多模态数据融合三维目标检测网络的损失函数;对网络模型进行迭代训练;获取三维目标的检测结果。本发明利用特征学习网络,初步提取出一些候选区域,然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合,充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息,减小了误差累积,进而提高了局部空间出现多个目标时的检测精度。

主权项:1.一种基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,包括如下步骤:1获取训练样本集E1和测试样本集E2:从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据,并对每个点云数据进行预处理,然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1,将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2,其中,T≥5000,T1>T2,T1+T2=T;2基于注意力机制的多模态数据融合三维目标检测网络:2a构建基于注意力机制的多模态数据融合三维目标检测网络D的结构:构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D,其中,点云特征学习模块,包括顺次连接的三维稀疏卷积网络和区域回归网络;基于Transformer的特征提取模块,包括顺次连接的编码器和解码器;2b定义三维目标检测网络D的损失函数L:定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L:L=Lconf+Lrpn;3对三维目标检测网络D进行迭代训练:3a初始化迭代次数为r,最大迭代次数为R,当前三维目标检测网络模型为Dr的权值参数为θr,并令r=1,Dr=D;3b从训练样本集E1中无放回的选取训练样本作为网络模型Dr的输入进行前向传播,实现步骤为:3b1将训练样本集E1作为三维目标检测网络Dr的输入,点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习,点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成,得到共包含T1个点云数据的S个候选区域且每个候选区域至少包含一个点云数据,其中S≥1000,和分别表示每个候选区域的中心点坐标值,lrpn、wrpn和hrpn分别表示每个候选区域的长、宽和高,θrpn表示每个候选区域的旋转角度值;3b2多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息,进行多模态数据拼接,得到N个融合后的点云数据P={pi,Δpic,Δpij,fi},i=1,2,…,n,其中pi表示候选区域中的i个点,Δpic表示候选区域中的每个点到候选区域中心点的距离、Δpij表示候选区域中的每个点到八个角点的距离,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;3b3基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取,得到P的点云特征;解码器对P的点云特征进行通道加权解码,得到T1个点云数据中的预测三维目标框xpre={xpre,ypre,zpre,lpre,wpre,hpre}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir;3c采用三维目标检测网络D的损失函数L,并根据置信度概率c计算置信度损失值Lconf,根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率dir计算三维目标损失值Lrpn,然后采用随机梯度下降法,通过计算三维目标检测网络D的Lconf与Lrpn的和对权值参数θr的偏导数,对θr进行更新,得到本次迭代的三维目标检测网络模型Dr;3d判断r=R是否成立,若是,得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*,否则令r=r+1,Dr=D,并执行步骤3b;4获取三维目标的检测结果:将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*的输入进行前向传播,得到每个测试样本的三维目标检测结果,包括每个测试样本中的预测三维目标框xpre、以及三维目标框对应的角度值θpre和目标类别。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于注意力机制的多模态数据融合三维目标检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。