买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Transformer的跨模态细粒度检索方法_重庆邮电大学_202311654682.3 

申请/专利权人:重庆邮电大学

申请日:2023-12-05

公开(公告)日:2024-04-12

公开(公告)号:CN117874264A

主分类号:G06F16/432

分类号:G06F16/432;G06F16/483;G06F18/241;G06F18/213;G06F18/214;G06F18/22;G06F18/25;G06N3/045;G06N3/0464;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于Transformer的跨模态细粒度检索方法,包括选取并制作跨模态检索任务所需的训练集数据和验证集数据,分别包含了图像,视频,音频和文本四个模态,以及它们各自的标签文件。本方法核心创新分为两部分,第一部分为模态特异性特征提取,将来自各模态的数据通过各自的编码器后,接LAGC‑Attention模块完成细粒度特征提取;第二部分为跨模态信息交互,通过自设计的跨模态交互的MMC模块完成,该模块可以充分融合来自不同模态的特征信息,并对不同模态的公共特征表达进行对齐。因此,每个模态提取得到的特征表达不仅包含了其单模态的有效信息,还包含了不同模态之间的联系与共性。这极大地增强了每一个模态的特征表达能力,尤其是缩小了文本模态与图像模态之间的异构性。因此在跨模态检索任务中,各模态皆可高效且准确地搜寻到其他模态。本发明为后续的跨模态细粒度检索和推荐算法等研究提供了重要的技术支持,可广泛应用于搜索引擎,精准推送等现实场景。

主权项:1.一种基于Transformer的跨模态细粒度检索方法,其特征在于,包括以下步骤:步骤1:获取数据集,选取并划分细粒度跨模态检索任务所需的训练集。步骤2:对训练集的数据图像,视频,音频和文本四个模态分别进行预处理。步骤3:将步骤2处理后的数据输入到基于Pytorch开源深度学习框架设计的Transformer结构中。其中,图像,视频和音频数据采用视觉编码器,文本数据采用文本编码器,并加载类别标签。步骤4:将步骤3视觉和文本编码器处理后得到的特征分别输入LAGC-Attention模块和自设计的MMC特征融合模块,LAGC-Attention模块可以辅助细粒度样本进行高效特征提取,而MMC模块可获得每个模态的混合特征表达。步骤5:计算每个模态的分类交叉熵损失和视觉文本对称的对比损失值,训练并优化该跨模态检索模型。步骤6:利用优化后的模型参数,获得每个模态的特征表达,计算两两之间的余弦相似度,完成跨模态检索任务。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于Transformer的跨模态细粒度检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。