买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于隐藏信息学习的图像美学描述生成方法_杭州电子科技大学_202011609603.3 

申请/专利权人:杭州电子科技大学

申请日:2020-12-30

公开(公告)日:2024-02-13

公开(公告)号:CN112598662B

主分类号:G06T7/00

分类号:G06T7/00;G06V10/774;G06V10/82;G06N3/094;G06V10/40;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.02.13#授权;2021.04.23#实质审查的生效;2021.04.02#公开

摘要:本发明公开了一种基于隐藏信息学习的图像美学描述生成的方法。本发明步骤如下:1模型预处理。采用目标检测网络Encv和Transformer网络Enct分别从图像和文本评论中提取多尺度特征表达;2基于对抗学习的跨模态一致性特征提取。利用对抗学习思想,构建特征模态判别器;3多因素控制的美学评论生成。以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;4基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;5基于隐藏信息学习的对抗损失。本发明生成文本与输入图像的美学质量相匹配,从而提升模型的鲁棒性和精确性。

主权项:1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:步骤1模型预处理模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征;步骤2基于对抗学习的跨模态一致性特征提取利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器;使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似;步骤3生成多因素控制的美学文本评论以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;步骤4基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;该多任务约束判别网络采用文本质量预测损失和美学因素预测损失;基于文本质量预测和美学因素预测以多任务学习形式,对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练;步骤5基于隐藏信息学习的对抗损失基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练;步骤5所述的基于隐藏信息学习的对抗损失,具体实现如下:基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子指导模型的训练;具体而言,在判别网络中引入两组参数w和w*,对抗损失拟采用HingeLoss形式,需要求解以下问题: s.t. 其中,w和w*为网络权重参数,b和b*为网络偏置量,γ和C为权重系数,yi为xi样本所对应的标签,xi∈Rd为Transformer判别网络提取的特征,为预训练好的美学质量评价模型提取的特征,为两层全连接层,输出为文本特征引入的松弛因子;当文本噪声比较大时,基于文本预测质量误差较大,对应的松弛因子也需要较大,即生成的文本评论不需要与真实文本评论过于相近;当文本噪声较小时,松弛因子也较小,生成文本评论也应逼近真实文本评论;其中w和w*为网络权重参数,能够利用改进的SMO算法进行求解,与整个网络一起进行迭代优化;在测试阶段,只需要将测试图像及拟生成的美学因素标记输入到训练好的模型中,就能得到对应的美学描述。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于隐藏信息学习的图像美学描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。