买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于无标签样本下文本融合的图像相似性检测方法_湖南工业大学_202111482531.5 

申请/专利权人:湖南工业大学

申请日:2021-12-06

公开(公告)日:2024-04-09

公开(公告)号:CN114298159B

主分类号:G06V10/74

分类号:G06V10/74;G06V10/82;G06N3/0464;G06N3/0895;G06V10/80

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.04.26#实质审查的生效;2022.04.08#公开

摘要:一种基于无标签样本下文本融合的图像相似性检测方法,属于图像相似性度量技术领域,包括以下步骤:S1:构建包含upper、middle、lower三个分支的TFCSiam模型;S2:对S1构建的模型进行训练;S3:利用S2训练好的模型进行图像间相似性度量。该方法通过引入无监督学习中的对比学习、文本融合结构只是将图像相关的文本信息作为图像特征的补充、通过图文跨模态模块将文本信息嵌入到一个图文语义共享的子空间,然后再将子空间的嵌入特征融合到图像当中等方法,实现了减小特征融合以及后续多模态投影的复杂度、提高模型预测精度、提高模型训练计算效率等效果。

主权项:1.一种基于无标签样本下文本融合的图像相似性检测方法,其特征在于,包括以下步骤:S1:构建包含upper、middle、lower三个分支的TFCSiam模型,所述upper分支与lower分支为不对称结构,所述middle分支中选用跨模态模块处理文本模态信息;S2:对S1构建的模型进行训练;S2.1:将输入的图像随机做两种数据增强;S2.2:将经S2.1处理过的图像分别输入到upper分支和lower分支中提取图像的深层特征;S2.3:将图像对应的文本信息输入到middle分支,使文本投影到图文语义共享的子空间,得到多模态文本嵌入特征,进一步从语义上将文本和图像拉近;S2.4:对S2.2的图像的深层特征和S2.3的多模态文本嵌入特征进行融合;S2.5:将S2.4融合之后的多模态信息映射到度量空间,得到文本融合的图像嵌入;S2.6:所述文本融合的图像嵌入在upper分支中继续输入到下一个模块得到输出结果,计算所述输出结果与在lower分支的文本融合的图像嵌入的余弦距离;S2.7:将S2.6中的余弦距离作为TFCSiam模型的损失值,并以降低这个损失值为目标来更新模型的参数从而优化模型;S3:利用S2训练好的模型进行图像间相似性度量;S3.1:将训练好的TFCSiam模型变换成TFCSiam表征模型;S3.2:将需要进行相似性度量的图文对A′和B′输入TFCSiam表征模型,得到度量空间下的融合文本的图像嵌入表示A和B;S3.3:计算A、B的余弦距离d,判断A′、B′图像是否相似。

全文数据:

权利要求:

百度查询: 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。