买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习的高层次语义图像检索方法_西安电子科技大学_202010580880.X 

申请/专利权人:西安电子科技大学

申请日:2020-06-23

公开(公告)日:2024-04-09

公开(公告)号:CN111782852B

主分类号:G06F16/583

分类号:G06F16/583;G06V10/74;G06V20/70;G06V10/82;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2020.11.03#实质审查的生效;2020.10.16#公开

摘要:本发明公开了一种基于深度学习的高层次语义图像检索方法,主要解决现有技术从图像语义角度进行检索时存在的语义鸿沟问题。其实现步骤为:1构建CNN‑RNN网络模型并进行训练;2使用训练后的网络模型提取图像库中图片的文本特征;3使用词向量word2vec模型提取文本特征的语义特征向量并存储;4使用训练后的网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;5使用余弦法将查询图片的特征向量和图像库中特征向量进行计算比较,并输出结果。本发明能够有效降低语义鸿沟对系统的影响,使系统可从图片的语义信息上实现相似性检索,适用于互联网企业日常的检索业务也可用于嵌入与智能手机中搜索图片。

主权项:1.一种基于深度学习的高层次语义图像检索方法,其特征在于,包括如下步骤:1构建CNN-RNN网络模型并进行训练:1a对MSCOCO数据集中图片和相应的图像标题进行预处理;1b构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,得到由编码器和解码器组成的CNN-RNN网络模型;所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出,即选取最后卷积层的至少5个特征图作为特征向量进行输出;所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成,且层与层之间使用最大池化分开,所有隐层神经元均采用ReLU激活函数;1c对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN-RNN网络模型;2使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题,即图片对应的文本特征,并将提取的文本特征存储在数据库中;3使用gensim库中自带的词向量模型,将文本特征中每个词的词向量相加,并取其相加结果的平均值,得到每个文本特征对应的语义特征向量并存储;4使用最终CNN-RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;5使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;6输出相似语义特征向量对应的图片,即待查询图片的相似图片。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于深度学习的高层次语义图像检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。