申请/专利权人:辽宁工业大学
申请日:2022-06-14
公开(公告)日:2024-03-29
公开(公告)号:CN115019142B
主分类号:G06V10/80
分类号:G06V10/80;G06V10/82;G06N3/0442;G06N3/0455;G06N3/084;G06F40/258
优先权:
专利状态码:有效-授权
法律状态:2024.03.29#授权;2022.09.23#实质审查的生效;2022.09.06#公开
摘要:本发明提供一种基于融合特征的图像标题生成方法,通过SE通道特征提取模块获取目标图像的通道级特征;通过节点嵌入区域特征提取模块获取目标图像的区域级特征;通过特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征;通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词,并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题,使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,有效缩减训练的时间,改善注意力权重的可解释性,统一视觉图像和语言理解间的跨模块特征。
主权项:1.一种基于融合特征的图像标题生成方法,其特征在于,包括:搭建并训练图神经网络以形成融合特征目标标题生成模型;其中,所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器;其中,所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块;通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征;通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征;通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征;通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词,并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。
全文数据:
权利要求:
百度查询: 辽宁工业大学 基于融合特征的图像标题生成方法、系统、电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。