买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】面向无人机视频数据的弱监督显著性目标检测方法及系统_山东大学;中国电子科技集团公司第五十四研究所_202310989860.1 

申请/专利权人:山东大学;中国电子科技集团公司第五十四研究所

申请日:2023-08-07

公开(公告)日:2024-04-02

公开(公告)号:CN117173394B

主分类号:G06V10/25

分类号:G06V10/25;G06V10/52;G06V10/62;G06V10/80;G06V10/44;G06V10/82;G06V20/17;G06N3/0455

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明提出了面向无人机视频数据的弱监督显著性目标检测方法及系统,分别对视频的RGB图像和光流图进行浅层特征和深层特征的提取,浅层特征包括物体的边缘和纹理等特征信息,深层特征包括丰富的显著性语义内容,将不同模态的浅层特征进行模态对齐和校准,能够更加关注每个模态的显著性信息;不同模态的深层特征进行跨模态融合,充分融合了深层特征的显著性语义信息,然后基于跨模态浅层增强特征和跨模态深层交互特征进行融合得到检测结果,能够很好地抑制视频中复杂背景信息,提高了视频显著性目标检测的准确性,而且应用在弱监督中可达到部分全监督检测效果。

主权项:1.面向无人机视频数据的弱监督显著性目标检测方法,其特征在于,包括:获取视频片段的RGB图像、光流图像;分别对所述RGB图像、光流图像进行多尺度的特征提取,得到RGB图像的浅层特征和深层特征,光流图像的浅层特征和深层特征;采用跨模态特征增强模块,将所述RGB图像和所述光流图像不同模态的浅层特征进行模态对齐,基于通道注意力机制对不同模态的浅层特征进行通道维度校准,将不同模态浅层特征对齐后特征和通道维度校准后特征进行融合,得到跨模态浅层增强特征;具体的,采用跨模态特征增强模块,将所述RGB图像和所述光流图像不同模态的浅层特征进行模态对齐,并基于通道注意力机制对不同模态的浅层特征进行通道维度校准,将不同模态浅层特征对齐后特征和通道维度校准后特征进行融合,得到目标跨模态浅层增强特征,具体为:对所述RGB图像的浅层特征和所述光流图像的浅层特征基于公共部分计算空间权重图;具体的, 其中,表示逐像素相乘,Max·代表通道维度上的全局最大池化操作,该操作将多通道特征映射为单通道特征,σ为Sigmoid激活函数,为7×7卷积层;将所计算的空间权重图分别与所述RGB图像浅层特征、所述光流图像浅层特征进行融合对齐,分别得到对齐特征;具体的,对齐过程: 得到两个模态空间对齐后的特征,通道维度的注意力被用于对各自模态特征内拥有更多显著性内容的通道特征进行增强: 其中,GMP表示全局最大池化,为1×1卷积层;将对齐特征基于通道注意力机制进行校准,得到校准特征;具体的,通道注意力得到的通道维度加权特征加权各自对应的两个模态特征中,以实现在通道维度对显著性信息的校准: 其中,⊙代表通道维度带有广播策略相乘;将不同模态的对齐特征与对应的校准特征进行融合,得到不同模态的跨模态浅层增强特征;具体的,门控装置以经过特征增强后的两个模态特征为输入,将特征级联后,利用多层感知器产生门控信号,让网络学习选择两个模态的权重,过程如下所述: 其中,GAP表示全局平均池化,MLP表示多层感知机,Cat表示在特征维度的级联操作;随后,得到两个模态各自权重Ga和Gm,这两个权重用于控制两个模态特征的重要性;与经过对齐和校准后的对应模态特征加权得到最终跨模态特征增强模块的输出:[Ga,Gm]=ρf′g 其中,表示带有广播策略的相乘,fCFE为当前特征尺度对应的跨模态特征增强模块的输出;还包括边缘检测增强,具体的,利用全监督的交叉熵损失函数作为边缘检测增强的边缘检测监督;包括:将RGB图像的不同尺度的浅层特征、所述光流图像不同尺度的浅层特征分别通过一维卷积进行特征降维;将降维后的RGB图像的不同尺度的浅层特征、光流图像不同尺度的浅层特征分别上采样到同一尺度;将上采样后的RGB图像的浅层特征、光流图像的浅层特征基于不同模态进行级联;将级联后的结果基于通道注意力机制得到边缘增强的RGB图像的浅层特征、光流图像的浅层特征;具体的,交叉熵损失函数 其中,J为涂鸦标签前景标注区域,g指真值,s代表预测显著图;同时,边缘检测增强模块需要边缘损失函数学习边界结构信息,使用全监督的交叉熵损失函数作为边缘信息监督: 其中,GTe表示对应的边缘真值图;引入提出的门控结构感知损失函数实现期望预测的显著性图在显著区域内具有一致性,在显著性目标边缘存在明显边界的目的,针对模型的显著性检测结果图,得到损失函数: 其中,GTs为弱监督涂鸦标签,grey表示当前模型训练输入的RGB图像对应的灰度图,λ为超参数用于平衡多个损失函数;最后,加上使用的InfoNCE损失函数整个模型的总损失函数如下: 采用深度感知交互模块,将所述RGB图像和所述光流图像不同模态的深层特征基于多头注意力机制实现跨模态融合,得到跨模态深层交互特征;具体的,采用深度感知交互模块,将所述RGB图像和所述光流图像不同模态的深层特征基于多头注意力机制进行跨模态融合,得到跨模态深层交互特征,具体包括:将所述RGB图像和所述光流图像不同模态的深层特征经过映射,得到对应的查询变量、关键变量和值变量;根据所得到的不同模态的查询变量、关键变量和值变量,基于跨模态注意力机制,得到RGB图像运动模态增强特征和光流图像纹理增强特征;具体的,对于跨模态的感知交互,两个模态的特征经过映射得到对应的查询变量q,关键变量k和值变量v;首先在多头跨模态注意力的注意力模块中对两个模态的查询变量进行交换,进行跨模态的显著性特征学习,通过以下两个公式表示: 其中,attan对应RGB图像模态特征被运动模态特征增强,attma对应运动模态特征被RGB图像模态特征增强,MCA为跨模态注意力机制,d为缩放因子;将RGB图像运动模态增强特征、光流图像纹理增强特征分别经过线性映射,然后基于多头自注意力进行单模态特征的学习,得到跨模态深层交互特征;利用长时跨帧对比模块基于连续帧之间背景和前景的相似度以及不同帧之间背景和前景的差异性,对跨模态浅层增强特征和跨模态深层交互特征进行融合,得到显著性目标检测结果;具体的,利用长时跨帧对比模块基于连续帧之间背景和前景的相似度以及不同帧之间背景和前景的差异性,对不同模态的跨模态浅层增强特征和跨模态深层交互特征进行融合,具体为:通过卷积操作获得融合特征的前景特征的激活图;根据所述激活图和融合特征通过矩阵乘法进行前景和背景的解耦,得到前景表达向量和背景表达向量;所述前景表达向量和背景表达向量通过对比学习的损失函数拉近前景和前景的距离,拉远前景和背景的距离。

全文数据:

权利要求:

百度查询: 山东大学;中国电子科技集团公司第五十四研究所 面向无人机视频数据的弱监督显著性目标检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。