【发明授权】一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

导航：龙图腾网> 最新专利技术> 一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

申请/专利权人：大连理工大学

申请日：2021-10-11

公开（公告）日：2024-04-23

公开（公告）号：CN113869007B

主分类号：G06F40/126

分类号：G06F40/126;G06F40/194;G06F40/30;G06F16/583;G06N3/0442;G06N3/0464;G06N3/0475;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2022.01.21#实质审查的生效;2021.12.31#公开

摘要：本申请提供了一种基于深度学习的文本生成图像学习方法，属于计算机视觉领域。我们提出TRGAN学习模型，TRGAN包含两个模块:联合注意堆叠生成模块和文本生成模块反向修正和校正模块。在JASGM模块中，从词级信息中提取详细的特征信息图像是基于全局句子注意力生成的。在TGOCM模块中，文本描述反向生成，可以通过匹配词级特征向量来提高初始图像的质量。本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题，通过大量实验验证，本发明所得到的数据表示性能优于现阶段相关模型。

主权项：1.一种基于深度学习的文本生成图像学习方法，其特征在于，具体包括如下步骤：第一步，对现实的文本描述编码在词级注意模型中，通过注意词级机制生成一个注意词级特征矩阵将注意词级特征矩阵和视觉特征fi作为感知器Fi的输入，然后感知层将词级特征转换为视觉特征的公共语义空间；同时，也将输入的现实文本通过注意句子级编码器生成句子级特征，句子级特征和随机噪声向量共同作用生成隐藏特征hquery；并且基于隐藏特征h计算每个词向量的权重，根据权重绘制每个区域的图像；初始图像的每一部分都是根据每个单词的权重绘制；最后，通过计算注意词级权重矩阵和视觉特征fi-1，进一步生成下一阶段的视觉特征fi：f0＝F0z，Fcas；其中，z是噪声向量，从标准正态分布中采样，是词级注意模型，引用AttnGAN中的模型；Fi是感知器；w是词向量；Gi是生成器；第二步，首先添加文本以纠正生成的图像，并通过文本和图像的损失对抗来训练生成器和鉴别器，生成器和鉴别器的结构包括三个部分：aFeatureExtractor，提取的图像特征大小为2048个，层数密集，将其减小到256个节点；b序列处理器，嵌入层处理文本输入，后面是LSTM层；c解码器，然后将以上FeatureExtractor和LSTM两层的输出结合起来，将它们处理为稠密层，做出最终的预测；其中，是视觉特征，作为输入通知LSTM层关于图像内容；表示一个单词嵌入矩阵，将单词特征映射到视觉特征空间；Tt是公共特征空间；pt+1是一个预测单词的概率分布；第三步，比较真实的语义和生成的语义；通过计算两个语义之间的相似度，不仅可表示确定生成图像的质量，还能定位每个字的丢失；根据单词的相似度，给予每个单词一个相应的权重；其中，xi代表实际的文本，yi代表生成的文本，如果cosθ接近1，意味着它们之间的夹角是接近0度，意味着两个向量更相似；如果它们之间的夹角等于0，意味着两个向量相等；h的每一列都是图像的一个子区域的特征向量；对于第jth个子区域，其词上下文向量是与hj相关的词向量的动态表示Cj为：其中βj，i表示模型对第i项所占的权重生成图像的第j个子区域；S′j，k将词向量映射到公共语义空间；通过单词的相似度权重矩阵和区域单词权重矩阵共同作用，为生成更高质量的图像做出贡献；基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失，损失函数包括：第一阶段，损失函数定义为图像的负对数后验概率与对应的文本描述匹配： LG1＝Lw+Ls其中，W代表单词，S代表句子，Q代表图像，i代表第i阶段；第二阶段，使用重新描述的文本与真实文本在对齐语义空间进行匹配，计算损失：其中，Tt是公共特征空间；第三阶段，在这个阶段，通过匹配整个图像和一个单词序列来计算分数：其中，是生成的图像；从第i阶段的分布中抽取的样本；是单词序列；总的来说，生成器损失定义为：其中，LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失，α，β，λ是三个参数；通过与生成器的对抗来判别图像是否为真实；最后，鉴别器损失可定义为：其中，xi来自于真实图像分布的第i比例；来自于模型分布的相同比例；以上多阶段的生成，循环修复文本生成的损失，通过生成器和鉴别器的对抗生成，获得高质量，高分辨率的图像。

全文数据：

权利要求：

百度查询：大连理工大学一种基于深度学习的文本生成图像学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

下一篇：电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

相关技术

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

图像相关技术

前置图像信号处理装置及图像信息传输方法_OPPO广东移动通信有限公司_202110421250.2

基于图像处理的图像优化方法及相关装置_北京酷豹科技有限公司_202010622203.X

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

医用图像处理装置以及医用图像处理方法_富士胶片医疗健康株式会社_202010503352.4

图像形成装置_佳能株式会社_202311344855.1

图像处理方法和装置_京东方科技集团股份有限公司_201910569605.5

神经网络的训练方法、图像处理方法、图像处理装置_京东方科技集团股份有限公司_201910262329.8

粘合片、层叠片、柔性图像显示装置构件和柔性图像显示装置_三菱化学株式会社_202080080700.X

一种多模态信息指导的医学图像分割系统及图像处理方法_山东大学_202111524363.1

基于由旋转成像器捕获的图像的全景图像构建_泰立戴恩菲力尔商业系统公司_201980047034.7

文本相关技术

一种文本推荐方法、系统、存储介质和设备_济南大学_202111016193.6

一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

一种文本行图片的解码方法、装置和设备_北京有竹居网络技术有限公司_202110558943.6

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

文本意图识别方法、装置、设备和存储介质_平安科技(深圳)有限公司_202010033742.X

文本细粒度情感分类方法、系统、装置及存储介质_华南理工大学_202010560649.4

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

文本检测方法、装置、计算机设备和存储介质_腾讯科技(深圳)有限公司_202011020108.9

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

龙图腾网&IPTOP

【发明授权】一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务