申请/专利权人:电子科技大学
申请日:2023-12-13
公开(公告)日:2024-03-15
公开(公告)号:CN117708361A
主分类号:G06F16/583
分类号:G06F16/583;G06V30/19;G06V10/82;G06N3/0464;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.02#实质审查的生效;2024.03.15#公开
摘要:本申请提供一种零样本草图检索模型的训练及图像检索方法,涉及图像处理技术领域。该方法包括:采用预处理模块对样本对内的草图图像和待检索图像分别进行预处理;将预处理后的草图图像和待检索图像输入分块嵌入模块;图像编码器获取第一提示模块的输出以及草图视觉特征以及第二提示模块的输出以及实例视觉特征;图像编码器为基于对比文本‑图像对的预训练模型的图像编码器;多头交叉注意力机制的交叉注意模块建立草图图像与待检索图像之间的视觉对应关系;确定三元组损失值和交叉熵损失值;基于三元组损失值和交叉熵损失值对零样本草图检索模型进行训练,以得到训练后的零样本草图检索模型。相对于现有技术避免了难以满足高效检索需求的问题。
主权项:1.一种零样本草图检索模型的训练方法,其特征在于,所述零样本草图检索模型包括:预处理模块、分块嵌入模块、第一提示模块、第二提示模块、图像编码器、对齐模块、第一多头交叉注意力机制的交叉注意模块和第二多头交叉注意力机制的交叉注意模块,其中,所述图像编码器为基于对比文本-图像对的预训练模型的图像编码器,所述方法包括:采用所述预处理模块对样本对内的草图图像和待检索图像分别进行预处理;其中,所述草图图像中包括描绘物体,所述待检索图像中包括所述描绘物体对应的实例物体;将预处理后的草图图像和待检索图像分别输入所述分块嵌入模块,以获取所述草图图像对应的草图视觉特征和所述待检索图像对应的实例视觉特征;所述图像编码器获取所述第一提示模块的输出以及所述草图视觉特征;所述图像编码器获取所述第二提示模块的输出以及所述实例视觉特征;所述图像编码器分别输出样本草图编码特征和样本实例编码特征至所述第一多头交叉注意力机制的交叉注意模块和所述第二多头交叉注意力机制的交叉注意模块,以建立所述草图图像与所述待检索图像之间的视觉对应关系;所述图像编码器输出的所述样本草图编码特征和所述样本实例编码经过所述对齐模块的处理,得到对齐后的样本草图编码特征和对齐后的样本实例编码特征;基于所述草图图像与待检索图像之间的视觉对应关系,确定三元组损失值;基于所述对齐后的样本草图编码特征和所述对齐后的样本实例编码特征,确定交叉熵损失值;基于所述三元组损失值和所述交叉熵损失值对所述零样本草图检索模型进行训练,以得到训练后的零样本草图检索模型。
全文数据:
权利要求:
百度查询: 电子科技大学 零样本草图检索模型的训练及图像检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。