买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多模态图像融合的微光夜视场景理解方法_中国矿业大学_202410031296.7 

申请/专利权人:中国矿业大学

申请日:2024-01-09

公开(公告)日:2024-04-09

公开(公告)号:CN117853856A

主分类号:G06V10/80

分类号:G06V10/80;G06V10/774;G06N3/0464;G06V10/82;G06N3/045;G06V10/44;G06V10/42

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明公开了一种基于多模态图像融合的微光夜视场景理解方法,属于人工智能技术,根据层级多模态特征信息的特点,构建不同特征校准和特征聚合模块以增强多模态特征信息的联合表示学习;构建跨模态全局特征描述模块以减少模态间的信息差异,实现多模态特征信息的校准;构建多模态交错稀疏自注意力模块来保证浅层网络层中多模态空间特征信息的聚合;构建对称金字塔池化交叉注意力模块与多模态跨通道通信模块用于聚合深层特征的空间层信息和通道层信息。本发明能够充分利用多模态特征信息互补优势,避免单一模态信息导致微光夜视场景理解能力不足,能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

主权项:1.一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,步骤如下:步骤1、对MFNet数据集中1569幅图像进行归一化处理,将像素大小统一为H×W,H表示长度,W表示宽度;将统一尺寸后的图像按照784393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2;步骤2、构建多模态高效融合网络:所述多模态高效融合网络包括:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中,可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL-MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建;转入步骤3;步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为H4×W4、H8×W8、H16×W16、H32×W32,将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为H4×W4、H8×W8、H16×W16、H32×W32,将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32;S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;转入S33;S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为H4×W4的浅层解码特征,转入S34;S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为H4×W4的深层解码特征,转入S35;S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络,转入步骤4;步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率。

全文数据:

权利要求:

百度查询: 中国矿业大学 一种基于多模态图像融合的微光夜视场景理解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。