首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于目标检测的文本生成图像的方法_中国科学技术大学_202110754919.X 

申请/专利权人:中国科学技术大学

申请日:2021-07-01

公开(公告)日:2024-05-17

公开(公告)号:CN113362416B

主分类号:G06T11/00

分类号:G06T11/00;G06V10/75;G06V10/82;G06V20/70;G06F40/30;G06N3/0464;G06N3/045;G06N3/0475;G06N3/094;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2021.09.24#实质审查的生效;2021.09.07#公开

摘要:本发明提供了一种基于目标检测的文本生成图像的方法,包括:输入一段描述性的文本;利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。本发明技术的生成模型只包含一个生成器和一个判别器,在保证生成图像质量的同时提高了模型的训练效率。

主权项:1.一种基于目标检测的文本生成图像的方法,包括:输入一段描述性的文本;利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;所述每一个单词的特征向量和整个句子的特征向量通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别;所述生成器的输入为句子特征、随机噪声和单词特征,包括:将句子特征和随机噪声通过全连接层压缩到同样大小,级联两个向量输入卷积层,得到初始的图像特征;将特征图输入一系列上采样模块,直到图像特征的尺寸为256*256;将所述初始的图像特征输入通道注意力机制层;将生成的倒数第二个图像特征输入空间注意力机制层;得到经过处理的图像特征,将其输入到卷积层中转换为生成图像;所述生成器包括上采样模块、通道注意力机制模块和空间注意力机制模块;所述上采样模块包括上采样层和残差网络;其中,所述上采样层是为了得到通道数减小、每张特征图的大小翻倍的图像特征;所述残差网络则是为了防止深度网络出现梯度消失的情况发生;所述通道注意力机制模块的输入为单词特征和上一层图像特征,基于单词特征为输入图像特征的每个通道计算权重,权重反应了每个单词和生成的图像特征的各个通道的相关程度,输出为加权后的图像特征;所述空间注意力机制模块的输入为单词特征和上一层的图像特征,基于单词特征时为输入特征图的各个子区域计算权重,权重反应的是每个单词和生成的图像各个子区域的相关程度,输出加权后的图像特征。

全文数据:

权利要求:

百度查询: 中国科学技术大学 基于目标检测的文本生成图像的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。