买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3 

申请/专利权人:大连理工大学

申请日:2021-10-11

公开(公告)日:2024-04-23

公开(公告)号:CN113869007B

主分类号:G06F40/126

分类号:G06F40/126;G06F40/194;G06F40/30;G06F16/583;G06N3/0442;G06N3/0464;G06N3/0475;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.01.21#实质审查的生效;2021.12.31#公开

摘要:本申请提供了一种基于深度学习的文本生成图像学习方法,属于计算机视觉领域。我们提出TRGAN学习模型,TRGAN包含两个模块:联合注意堆叠生成模块和文本生成模块反向修正和校正模块。在JASGM模块中,从词级信息中提取详细的特征信息图像是基于全局句子注意力生成的。在TGOCM模块中,文本描述反向生成,可以通过匹配词级特征向量来提高初始图像的质量。本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题,通过大量实验验证,本发明所得到的数据表示性能优于现阶段相关模型。

主权项:1.一种基于深度学习的文本生成图像学习方法,其特征在于,具体包括如下步骤:第一步,对现实的文本描述编码在词级注意模型中,通过注意词级机制生成一个注意词级特征矩阵将注意词级特征矩阵和视觉特征fi作为感知器Fi的输入,然后感知层将词级特征转换为视觉特征的公共语义空间;同时,也将输入的现实文本通过注意句子级编码器生成句子级特征,句子级特征和随机噪声向量共同作用生成隐藏特征hquery;并且基于隐藏特征h计算每个词向量的权重,根据权重绘制每个区域的图像;初始图像的每一部分都是根据每个单词的权重绘制;最后,通过计算注意词级权重矩阵和视觉特征fi-1,进一步生成下一阶段的视觉特征fi:f0=F0z,Fcas; 其中,z是噪声向量,从标准正态分布中采样,是词级注意模型,引用AttnGAN中的模型;Fi是感知器;w是词向量;Gi是生成器;第二步,首先添加文本以纠正生成的图像,并通过文本和图像的损失对抗来训练生成器和鉴别器,生成器和鉴别器的结构包括三个部分:aFeatureExtractor,提取的图像特征大小为2048个,层数密集,将其减小到256个节点;b序列处理器,嵌入层处理文本输入,后面是LSTM层;c解码器,然后将以上FeatureExtractor和LSTM两层的输出结合起来,将它们处理为稠密层,做出最终的预测; 其中,是视觉特征,作为输入通知LSTM层关于图像内容;表示一个单词嵌入矩阵,将单词特征映射到视觉特征空间;Tt是公共特征空间;pt+1是一个预测单词的概率分布;第三步,比较真实的语义和生成的语义;通过计算两个语义之间的相似度,不仅可表示确定生成图像的质量,还能定位每个字的丢失;根据单词的相似度,给予每个单词一个相应的权重; 其中,xi代表实际的文本,yi代表生成的文本,如果cosθ接近1,意味着它们之间的夹角是接近0度,意味着两个向量更相似;如果它们之间的夹角等于0,意味着两个向量相等;h的每一列都是图像的一个子区域的特征向量;对于第jth个子区域,其词上下文向量是与hj相关的词向量的动态表示Cj为: 其中βj,i表示模型对第i项所占的权重生成图像的第j个子区域;S′j,k将词向量映射到公共语义空间;通过单词的相似度权重矩阵和区域单词权重矩阵共同作用,为生成更高质量的图像做出贡献;基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失,损失函数包括:第一阶段,损失函数定义为图像的负对数后验概率与对应的文本描述匹配: LG1=Lw+Ls其中,W代表单词,S代表句子,Q代表图像,i代表第i阶段;第二阶段,使用重新描述的文本与真实文本在对齐语义空间进行匹配,计算损失: 其中,Tt是公共特征空间;第三阶段,在这个阶段,通过匹配整个图像和一个单词序列来计算分数: 其中,是生成的图像;从第i阶段的分布中抽取的样本;是单词序列;总的来说,生成器损失定义为: 其中,LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失,α,β,λ是三个参数;通过与生成器的对抗来判别图像是否为真实;最后,鉴别器损失可定义为: 其中,xi来自于真实图像分布的第i比例;来自于模型分布的相同比例;以上多阶段的生成,循环修复文本生成的损失,通过生成器和鉴别器的对抗生成,获得高质量,高分辨率的图像。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于深度学习的文本生成图像学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。