申请/专利权人:湖南工业大学
申请日:2021-12-06
公开(公告)日:2024-04-09
公开(公告)号:CN114298159B
主分类号:G06V10/74
分类号:G06V10/74;G06V10/82;G06N3/0464;G06N3/0895;G06V10/80
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2022.04.26#实质审查的生效;2022.04.08#公开
摘要:一种基于无标签样本下文本融合的图像相似性检测方法,属于图像相似性度量技术领域,包括以下步骤:S1:构建包含upper、middle、lower三个分支的TFCSiam模型;S2:对S1构建的模型进行训练;S3:利用S2训练好的模型进行图像间相似性度量。该方法通过引入无监督学习中的对比学习、文本融合结构只是将图像相关的文本信息作为图像特征的补充、通过图文跨模态模块将文本信息嵌入到一个图文语义共享的子空间,然后再将子空间的嵌入特征融合到图像当中等方法,实现了减小特征融合以及后续多模态投影的复杂度、提高模型预测精度、提高模型训练计算效率等效果。
主权项:1.一种基于无标签样本下文本融合的图像相似性检测方法,其特征在于,包括以下步骤:S1:构建包含upper、middle、lower三个分支的TFCSiam模型,所述upper分支与lower分支为不对称结构,所述middle分支中选用跨模态模块处理文本模态信息;S2:对S1构建的模型进行训练;S2.1:将输入的图像随机做两种数据增强;S2.2:将经S2.1处理过的图像分别输入到upper分支和lower分支中提取图像的深层特征;S2.3:将图像对应的文本信息输入到middle分支,使文本投影到图文语义共享的子空间,得到多模态文本嵌入特征,进一步从语义上将文本和图像拉近;S2.4:对S2.2的图像的深层特征和S2.3的多模态文本嵌入特征进行融合;S2.5:将S2.4融合之后的多模态信息映射到度量空间,得到文本融合的图像嵌入;S2.6:所述文本融合的图像嵌入在upper分支中继续输入到下一个模块得到输出结果,计算所述输出结果与在lower分支的文本融合的图像嵌入的余弦距离;S2.7:将S2.6中的余弦距离作为TFCSiam模型的损失值,并以降低这个损失值为目标来更新模型的参数从而优化模型;S3:利用S2训练好的模型进行图像间相似性度量;S3.1:将训练好的TFCSiam模型变换成TFCSiam表征模型;S3.2:将需要进行相似性度量的图文对A′和B′输入TFCSiam表征模型,得到度量空间下的融合文本的图像嵌入表示A和B;S3.3:计算A、B的余弦距离d,判断A′、B′图像是否相似。
全文数据:
权利要求:
百度查询: 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。