福州大学柯逍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福州大学申请的专利关系推理与跨模态独立匹配网络的实例级跨模态检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116881416B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310867080.X,技术领域涉及:G06F16/332;该发明授权关系推理与跨模态独立匹配网络的实例级跨模态检索方法是由柯逍;陈柏涛;蔡宇航设计研发完成,并于2023-07-14向国家知识产权局提交的专利申请。
本关系推理与跨模态独立匹配网络的实例级跨模态检索方法在说明书摘要公布了:本发明提出关系推理与跨模态独立匹配网络的实例级跨模态检索方法,首先利用模态特征提取器将输入的原始图片转化为区域特征,将输入的文本转化为词序列。然后分别对图像和文本模态进行模态特征关系推理,以挖掘局部特征之间的相互作用关系。接着采用基于图网络的图池化方法对重排特征进行模态全局语义聚合。最后计算多模态特征之间的相似性,按照相似性返回跨模态检索结果。在神经网络训练过程中利用引力损失函数对模态内与模态间匹配关系的学习过程进行指导与修正;本发明能够有效地对多模态数据进行局部关系推理与全局语义聚合,高效准确地完成多模态场景下细粒度的实例级跨模态检索任务。
本发明授权关系推理与跨模态独立匹配网络的实例级跨模态检索方法在权利要求书中公布了:1.关系推理与跨模态独立匹配网络的实例级跨模态检索方法,其特征在于:包括以下步骤; 步骤S1:对图像模态采用以ResNet-101为骨干,在视觉基因组数据集VisualGenomes上预训练的FasterR-CNN提取每张图像多个显著区域的视觉特征,对文本模态采用词嵌入方法进行模态特征提取; 步骤S2:对使用步骤S1得到的图像模态特征采用由邻域关系推理和潜在关系推理组成的特征关系推理模块进行图像模态特征关系推理;对使用步骤S1得到的文本模态特征采用预训练BERT进行文本模态特征关系推理; 步骤S3:采用图池化方法对由步骤S2得到的融合上下文的图像模态特征与文本模态特征分别进行模态全局语义聚合,以得到模态表示; 步骤S4:对由步骤S3得到的模态表示计算多模态特征相似性,按照相似性返回跨模态检索结果;基于检索结果,在神经网络训练过程中利用引力损失函数对模态内与模态间匹配关系的学习过程进行指导与修正; 所述步骤S2具体实现如下: 步骤S21、针对图像模态的区域特征采用由邻域关系推理和潜在关系推理组成的特征关系推理模块进行图像模态特征关系推理; 邻域关系推理的具体方法为:图像模调度员的区域特征为包含m=36个显著区域的特征表示的无序集合,首先建立一个二维网格矩阵,并依据这36个显著区域特征在原始图像中的区块位置将之分配到二维网格矩阵中;将所有特征在原始图像中区块中心的相对位置记为点集X={x1,y1,...,xm,ym},将二维网格矩阵中所有点的集合记为点集Y={x′1,y′1,...,x′m,y′m};其中x与y分别是横纵坐标;点集X中的每个点必须且仅能与点集Y中的一个点匹配,两个点之间的距离D即匹配代价,记为它们相对位置之间的距离,以公式表述为: 其中,Ax、Bx、Ay、By分别为相对横坐标与相对纵坐标,为图像横坐标或纵坐标与图像宽或高的比值,取值范围为[0,1]; 为了求解在代价C最小化下点集X与点集Y之间的元素匹配结果,将集合X与集合Y之中所有点对相对位置坐标的欧氏距离之和作为匹配的代价,将上述求解过程抽象成二分图的最小代价匹配问题,并采用匈牙利算法求解最小匹配代价下的匹配结果,以公式表述为 由此完成对无序的区域特征的二维结构化建模;在建模后的二维网格矩阵中,由每个特征可轻松获得到其邻域的特征; 以非重叠的方式将二维网格矩阵划分成边长为a的小网格,在每个小网格中进行全局自注意计算,公式为: v′=MSALNv+v公式3-3 v"=MLPLNv'+v′公式3-4 其中,v代表一个小网格的特征输入,v′为中间变量,v″为融合局部上下文的特征输出;MSA·代表多头自注意,MLP·代表多层感知机; 潜在关系推理的具体方法为:对于每一个区域特征vii=1,2,...,m,将它与k个和它不同属于同一小网格的区域特征构造路径进行连通,路径权重为两个区域特征之间的余弦相似度; 完成所有路径的构造后,找一个具有最小权重和的连通回路,也就是找一个最远距离特征串;在该特征串之中,相邻特征的差异之和最大,相似度之和最小;采取贪心的策略进行最小权重和回路的构建,即以二维网格矩阵的一个随机节点作为出发点,每一步都走与它连接的k个随机节点之中最远的节点; 经上述步骤得到一个一维的特征环;将特征环按照长度l进行分段,在每个分段内利用公式3-3和公式3-4进行注意力计算; 图像模态特征关系推理基于特征关系推理模块,为对于图像模态,将上述邻域关系推理NRR与潜在关系推理PRR以并行的方式组成的特征关系推理模块FRR;以公式表述为: FRRvl=NRRvl+PRRvl,l=1...N公式3-5 其中vl为第l层的视觉特征,N为模块层数;为提高网络表达能力与训练稳定性,对于每个特征关系推理模块,额外引入一个残差分支: vl+1=FRRvl+vl+1,l=1...N公式3-6 通过N=2层特征关系推理模块对图像区域特征进行推理,以此来获得融合上下文的区域特征; 步骤S22、针对文本模态的词嵌入向量采用预训练BERT进行文本模态特征关系推理;其中BERT模型由12层标准的Transformer编码器构成,词嵌入的维度为768;保留整个输入序列中的每个元素对应的输出; 所述步骤S3具体实现如下: 步骤S31、对图像和文本模态的上下文的局部特征V={v1,v2,...,vm}与T={t1,t2,...,tn}进行降序排序,根据其值的递减顺序重新排列每个小批次中所有特征元素,得到重排特征与排序后的特征中,第i个特征就是第i大池化的结果,若第一个特征就是最大池化的结果,第二个特征就是第二大池化的结果,最后一个特征就是最小池化的结果; 步骤S32、将每个特征均作为图卷积网络GCN的一个节点,进行模态特征全连通图的构建,利用图卷积计算所有重排局部特征的权重,将所有非最大特征元素的信息聚合到最大特征元素上来; 在GCN中,每一个权重转移的计算都以某一节点特征作为输入,经过3个独立的一维卷积分别计算得到查询Q、键K、值V;Q与K经过点乘与归一化得到V逐个元素的权重并与V相乘;最后再经过一个Conv1d和归一化得到转移特征;每个节点更新后的特征由当前所有节点的转移特征之和得到;在该过程中,为了避免不必要的计算,不进行聚合到非最大特征元素的计算; 所述步骤S4具体实现如下: 步骤S41、基于样本显著性设计样本质量; 对于图像样本,将其样本质量mV定义为其m个显著区域交集覆盖区域的面积与图像面积SV的比例;以公式表述为: 对于文本样本,将其样本质量mT定义为其重要词个数与样本所包含总词数n的比例;即: 其中wi表示文本中第i个词wordi的权重,公式为: 使用StanfordCoreNLP对所有文本数据进行词性分词,以得到每个单词的词性;其中,名词n.、动词v.、形容词adj.、方位词p.、基数词cd.由于包含样本中实体的类型、属性、数量、方位以及相互作用关系的重要信息,被认为是重要词;其余的and、or、where以及标点符号被认为是非重要词; 步骤S42、基于样本质量设计损失函数; 当使用图像V作为查询时,对每个小批量中的所有文本进行采样,形成正样本对和负样本对;正样本对的加权相似性应比负样本对的加权相似性高出一个阈值γ;同理,当使用文本T作为查询时,正样本对与负样本对的加权相似性也应满足上述规则;加权相似性的差异与损失呈现非线性的平方关系;当差异大时损失较小,当差异小时损失急剧增大;结合在线难样本挖掘技术,致力于优化小批次中的最困难负样本;引力损失函数的设计如下: 其中,LVT是模态间引力损失,LV是图像模态的模态内引力损失,LT是文本模态的模态内引力损失;T′与V′分别是小批次中的最困难负样本;κ是相似核,利用欧氏距离计算的图像-文本对的全局相似度;函数[·]+即max·,0;mV、mT、m′V、m′T都是样本的质量;q是用来调节引力损失中质量重要性的系数,设置为8;每个图像文本样本都具有其独有的质量; 总的损失表示为模态间引力损失Linter与模态内引力损失Lintra的加权和;其中β是可调参数, L=Linter+βLintra公式5-7 L=Linter+βLintra =LVT+βLV+βLT。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。