买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于CLIP的概率嵌入组合检索方法_重庆师范大学_202310579804.0 

申请/专利权人:重庆师范大学

申请日:2023-05-20

公开(公告)日:2024-04-30

公开(公告)号:CN116578734B

主分类号:G06F16/535

分类号:G06F16/535;G06F16/583

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2023.08.29#实质审查的生效;2023.08.11#公开

摘要:本发明公开了一种基于CLIP的概率嵌入组合检索方法,涉及组合检索方法技术领域,本发明提出了一个基于CLIP编码的概率嵌入组合检索模型,使用概率嵌入与合成的方法,将CLIP编码后的特征添加概率分布以高斯概率密度函数之间乘法规则的进行特征的融合。该方法可以对实例嵌入的不确定性量化,简化了组合检索模型的构架,不需要复杂的辅助信息与多层次特征或大型架构,并在FashionIQ数据集与CIRR数据集两个基准上进行了验证,并且在时尚领域FashionIQ数据集和真实生活领域CIRR数据集的验证得到了不错的效果。

主权项:1.一种基于CLIP的概率嵌入组合检索方法,其特征在于,包括以下步骤:S1、定义多模态组合检索任务,在组合检索的视觉语言数据集D中,一个样本包括查询图像IR、查询文本CR以及目标图像IT三部分;S2、使用预训练的CLIP模型作为图像与文本的特征提取器并提取高级特征;S3、对于提取的高级特征使用模态无关的概率嵌入与合成器进行组合;S4、最后与目标图像使用蒙特卡洛估计的方法作为损失学习对齐;所述S2中,使用OpenAICLIP网络计算的图像和文本特征,每个输入以图像-文本对的形式给出,分别将图像编码器和文本编码器记为fimg·和fcap·,对于查询图像IR和目标图像IT:其中对于查询文本CR:zcap=fcapCR,其中zcap∈Rd,当CLIP图像编码器选用ResNet50x4为主干网络时,d=640;所述S3中,根据不确定性水平,嵌入有效地将概率质量分布到空间中的各个位置,在对冲实例嵌入的基础上,将每个样本作为一个概率分布将其进行建模为多变量高斯概率密度函数,以便通过参数概率规则组合查询图像特征和查询文本特征,将经CLIP编码器编码的图像特征zimg和查询文本特征zcap建模为具有均值为μimg和μcap,对角方差矩阵为Σimg和Σcap的正态分布:μimg=LNsigmoidFCattnzimg+avgpoolzimglogσimg=zimg+FCattnzimgμcap=LNsigmoidFCattnzcap+avgpoolzcaplogσcap=zcap+FCattnzcap其中LN表示层归一化操作,FC表示线性层,sigmoid·是sigmoid激活函数,attn表示自注意力模块;所述S3中,将每个样本作为一个分布进行建模,基于对冲实例嵌入,图像特征和文本特征被转化为一个均值为μimg和μcap,对角方差矩阵为Σimg和Σcap正态分布,文本和图像的概率嵌入表示为:pz|zcap~Nμcap,Σcap,pz|zimg~Nμimg,Σimg所述S3中,合成的目标是找到统一查询图像分布pz|zimg~Nμimg,Σimg与查询文本概率分布pz|zcap~Nμcap,Σcap的概率分布pz|C,使用基于导出k个高斯概率密度函数的乘积的参数概率规则来实现两者的概率嵌入,并将此过程称为概率组合器,两个高斯概率密度函数的乘积写成:Nz;μimg,ΣimgNz;μcap,Σcap=Nz;μc,ΣcZ Z=Nμimg;μcap,Σimg+Σcap所述S4中,使用相似性函数从目标分布Nμt,Σt中采取n个数据点,将这些数据点分配给复合分布以计算相似性得分,相似性函数被定义为概率得分的对数: 采用交叉熵损失与对比损失的原则,将损失函数定义为: 其中,B是批量大小,sim·,·是两个正对的概率分布之间的相似性,损失函数在所有正对之间进行计算,正则化项定义如下: 其中和分别是第i对查询中查询图像和查询文本的方差,最终的损失为:

全文数据:

权利要求:

百度查询: 重庆师范大学 一种基于CLIP的概率嵌入组合检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。