买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于上下文感知特征聚集的3D目标检测方法_华南理工大学_202210340978.7 

申请/专利权人:华南理工大学

申请日:2022-04-02

公开(公告)日:2024-04-12

公开(公告)号:CN114882495B

主分类号:G06V20/64

分类号:G06V20/64;G06V10/762;G06V10/764;G06V10/766;G06V10/82;G06N3/0464;G06N3/048;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要:本发明公开了一种基于上下文感知特征聚集的3D目标检测方法,步骤如下:S1、提取输入点云的局部特征点集并预测坐标和特征偏移量;S2、根据投票操作形成的特征聚类生成优化后的搜索半径;S3、根据步骤S2中的优化后的搜索半径生成语义特征;S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果。与现有技术相比,本发明的目标检测方法能在保持网络轻量级的同时,提升了目标检测任务的精度,达到理想的目标检测效果。

主权项:1.一种基于上下文感知特征聚集的3D目标检测方法,其特征在于,所述3D目标检测方法包括以下步骤:S1、提取输入点云的局部特征点集并预测坐标和特征偏移量,过程如下:S101、提取输入点云的局部特征点集;S102、预测局部特征点集中特征点的坐标和特征偏移量;S103、使用局部特征点集中特征点的坐标和特征偏移量进行坐标和特征的投票操作,形成特征聚类;S2、根据投票操作形成的特征聚类生成优化后的搜索半径,过程如下:S201、对投票后的特征聚类进行采样操作得到一组聚类中心点X;S202、对每个聚类中心点X进行搜索得到对应的一组强关键点集;S203、将每组强关键点集的特征进行聚合来预测搜索半径的偏移量,生成优化后的搜索半径;S3、根据步骤S2中生成的优化后的搜索半径生成语义特征,过程如下:S301、根据该优化后的搜索半径重新对每个聚类中心进行自适应半径的最近邻搜索得到新的一组关键点集;S302、基于新得到的关键点集进行特征聚合操作,得到语义特征;S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果,过程如下:S401、根据语义特征,利用多层感知机检测框分类和回归,得到中间结果向量;S402、解码中间结果向量,得到一组冗余的3D检测框;S403、对冗余的3D检测框进行去冗余处理,得到无冗余的3D检测框的最终输出结果;其中,在全局计算过程中,使用对象二分类损失、语义分类损失、检测框参数损失、投票误差损失、半径损失和基于投票方向的矢量损失函数共同作为监督信号;使用Adam梯度下降算法联合训练,直到总体损失函数在一定迭代轮数内不在下降或满足预设的迭代轮数,则完成联合训练,并保存联合训练后得到的参数;总体损失函数定义如下:Loss=α×Lossobjn+β×Losssem-cls+Lossbox+Lossvote+Lossradii+Lossvector其中,α为实现检测框分类功能的超参数,β为实现语义分类功能的超参数,Lossvote表示误差损失函数,Lossradii表示半径损失函数,Lossvector表示矢量损失函数;其中,Lossobjn为对象二分类损失,计算公式如下: score_obji表示第i个检测框的检测对象分数,是一个2维向量,第一维表示是对象检测框的置信度,第二维表示不是对象检测框的置信度,label_obji表示第i个检测框的真实对象标签的one-hot编码向量,维度为2,第一维是1表示是对象检测框,第二维是1表示不是对象检测框,Losscross-entropypi,yi表示交叉熵损失,M2表示有效的检测框个数,M2取值等于正负样本的二进制掩码mask中的非0元素和, pi,c表示pi的第c维的值,yi,c表示yi的第c维度值,pi和yi是输入的多维向量;Losssem-cls为语义分类损失,计算公式如下: score_semi表示第i个检测框的语义类别分数,是一个向量,label_semi表示第i个检测框的真实语义类别的one-hot编码向量;Lossbox为检测框参数损失,包括中心点损失Losscenter、朝向损失Lossheading、尺度损失Losssize,计算公式如下:Lossbox=Losscenter+Lossheading+Losssize distpred_centeri,label_centeri表示计算第i个检测框中心点和真实中心点的欧式距离,pred_centeri和label_centeri分别表示三维坐标点,维度为3的向量,假设pred_centeri=x1,y1,z1,label_centeri=x2,y2,z2,x1,y1,z1以及x2,y2,z2分别表示三维坐标点pred_centeri和label_centeri的在x轴、y轴、z轴的坐标值, Lossheading=Lossheading-cls+Lossheading-reg score_headingi,label_headingi分别表示检测框的朝向分类分数和真实的朝向类别的one-hot编码向量,都是维度为12的向量; pred_heading_offseti,label_heading_offseti分别表示检测框的朝向偏移量和真实的偏移量,都是一个维度为12的向量;Losssize=Losssize-cls+Losssize-reg score_sizei,label_sizei分别表示检测框的尺度类别分数和真实尺度类标的one-hot编码向量,都是一个10维度向量; pred_size_offseti,label_size_offseti分别表示检测框的尺度偏移量和真实的偏移量,都是一个10维向量。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于上下文感知特征聚集的3D目标检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。