恭喜西北工业大学牛凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西北工业大学申请的专利关键细节属性自适应掩膜增强的跨模态行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116503904B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310368238.9,技术领域涉及:G06V40/10;该发明授权关键细节属性自适应掩膜增强的跨模态行人重识别方法是由牛凯;张艳宁;黄涛设计研发完成,并于2023-04-08向国家知识产权局提交的专利申请。
本关键细节属性自适应掩膜增强的跨模态行人重识别方法在说明书摘要公布了:本发明涉及一种关键细节属性自适应掩膜增强的跨模态行人重识别方法,利用单模态显著属性掩膜模块,参考同一模态中的全局上下文语义来阐明不同属性的重要性;提出了跨模态显著属性掩膜模块,通过细粒度的跨模态关系,以确定不同属性的重要性;提出了属性建模平衡模块,随机选择用于跨模态对齐的掩膜特征的图像‑文本对,确保显著属性与和关键细节属性之间的建模能力平衡;本方法率先考虑自适应地掩膜容易学习的显著属性,通过参考单模态和跨模态关系筛选出容易学习的显著属性,并通过掩膜机制驱动模型提高对关键细节属性的建模能力,进而能够更加准确的区分相似行人,在自然语言行人搜索以及图像文本匹配任务中均获得了显著的检索准确率提升。
本发明授权关键细节属性自适应掩膜增强的跨模态行人重识别方法在权利要求书中公布了:1.一种基于关键细节属性自适应掩膜增强的跨模态行人重识别方法,其特征在于步骤如下: 步骤1:在图像单模态掩膜支路中和文本单模态掩膜支路中,分别计算得到单模态显著属性掩膜的视觉特征图以及单模态显著属性掩膜的文本特征图 在图像端: 步骤a1:归一化训练集图像为统一大小,并对训练集图像进行数据增强,提取图像特征,获得初始视觉特征图V; 步骤a2:在图像单模态掩膜支路中,计算初始视觉特征图V和全局视觉特征v之间的余弦相似度,获得单模态视觉相似度矩阵Sv,其中,全局视觉特征v由初始视觉特征图V经最大池化层提取而来; 步骤a3:计算单模态视觉相似度矩阵Sv中相似度最大的个值: 其中:hv,wv分别表示初始视觉特征图V的高度和宽度,rm表示掩膜位置的比例参数; 将与初始视觉特征图V的选定最大像素位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的视觉特征图 在文本端: 步骤b1:统一原始训练集句子单词个数,利用现有的词向量嵌入方法将单词编码为词向量,然后,通过1×1卷积即文本卷积层获得初始文本特征图T; 步骤b2:计算初始文本特征图T和全局文本特征t之间的余弦相似度,获得单模态文本相似度矩阵St,其中,全局文本特征t由初始文本特征图T经最大池化层提取而来; 步骤b3:计算单模态文本相似度矩阵St中的相似度最大的个值: 其中ht,wt分别表示初始文本特征图T的高度和宽度,rm为与图像单模态掩膜支路相同的掩膜位置比例参数; 将与初始文本特征图T的选定最大单词位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的文本特征图 步骤2:在跨模态掩膜支路,计算初始视觉特征图V和初始文本特征图T之间的余弦相似度,并获得跨模态相似度矩阵Sc; 步骤3:根据跨模态相似度矩阵Sc,分别找到相似度最大的和个值,即为跨模态搜索中认为最显著的视觉和文本属性,通过引入与图像单模态掩膜支路相同的掩膜位置比例参数rm,得到其中,对应于图像中的像素数,对应于文本中的单词数; 步骤4:掩膜最显著的区域的特征值,找出Sc中具有最大相似性的位置,该位置对应于图像中的个像素,并在整个通道中将V中的个像素设置为0,得到跨模态显著属性掩膜的视觉特征图 步骤5:将Sc中具有最大相似性的位置对应于文本中的个单词,并在整个通道中将T中的个单词设置为0,得到跨模态显著属性掩膜的文本特征图 步骤6:采用属性建模平衡模块,在一个训练批次中随机选择一个概率的样本进行掩膜,并设置训练批次随机掩膜比例参数rb,最终在一个训练批次中掩膜的特征图个数为nb: 其中:b表示一个训练批次的大小,表示向下取整; 步骤7:将步骤6训练的特征图输入属性建模平衡模块中的残差网络和最大池化层,得到掩膜后的特征向量;所述属性建模平衡模块为四个,其中,和V经过单模态图像属性建模平衡模块得到单模态自适应掩膜视觉特征向量Vu,和T经过单模态文本属性建模平衡模块得到单模态自适应掩膜文本特征向量Tu,和V经过跨模态图像属性建模平衡模块得到跨模态自适应掩膜视觉特征向量Vc,和T经过跨模态文本属性建模平衡模块得到跨模态自适应掩膜文本特征向量Tc; 步骤8:分别对Vu,Tu,Vc,Tc进行跨模态匹配,并采用“Adam优化算法”进行训练,直至收敛; 步骤9:测试时将图片和语句分别利用训练好的网络进行特征提取,不采用任何的掩膜操作,经图像单模态掩膜支路得到图像特征经跨模态掩膜支路得到图像特征经文本单模态掩膜支路得到文本特征经跨模态掩膜支路得到文本特征并将图像特征在通道维度拼接得到最终的视觉特征Vf,文本特征在通道维度拼接得到文本特征Tf; 步骤10:步骤9得到视觉特征Vf,文本特征Tf,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。