买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】提高图像文本描述独特多样性的网络构建方法_西安理工大学_202210095359.6 

申请/专利权人:西安理工大学

申请日:2022-01-26

公开(公告)日:2024-04-16

公开(公告)号:CN114625882B

主分类号:G06F16/36

分类号:G06F16/36;G06N3/0455;G06N3/0442;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.07.01#实质审查的生效;2022.06.14#公开

摘要:本发明公开了一种提高图像文本描述独特多样性的网络构建方法,包括构建网络模型图像数据集,提取图像数据集的全局特征gks和抽象场景图节点的区域特征,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征对取平均值得到平均区域编码特征将和gks融合,得到编码阶段输出的全局特征将全局特征通过双层解码器解码,得到输出并将通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;构建单词精细模块和单词校正模块,使用标准的交叉熵损失训练网络,完成网络构建。本发明构建的网络在保持文本语句准确率的同时更具有独特、多样的描述。

主权项:1.一种提高图像文本描述独特多样性的网络构建方法,其特征在于,包括以下步骤:步骤1,构建网络模型图像数据集;所述步骤1的具体过程如下:步骤1.1,建立训练及验证图像数据集选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;步骤1.2,建立控制条件数据集通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=Nks,Eks,ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1ks,node2ks,...,nodeNeks],nodekks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1};步骤2,提取图像数据集的全局特征gks和抽象场景图节点的区域特征;所述步骤2的具体过程如下:步骤2.1,建立描述文本的语义词典从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Yks,是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks,Lks是数据集样本中第ks幅图像的文本描述长度;步骤2.2,提取全局特征采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;步骤2.3,提取抽象场景图节点的区域特征取Faster-RCNN网络的全连接fc7层作为图像区域特征,提取所有ASG节点Nks的区域特征对于nodekks=o的目标节点,为在对应的区域上提取的特征;对于nodekks=a的属性节点,与其连接的对象节点的区域特征相同,对于nodekks=r的关系节点,从涉及到的两个关联目标的联合区域中提取;步骤3,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征对取平均值得到平均区域编码特征将和gks融合,得到编码阶段输出的全局特征所述步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:步骤3.1,将代表不同节点的区域特征输入节点嵌入模块,进行节点嵌入增强,得到具有节点属性感知的区域特征Zkks: 其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中: 步骤3.2,将节点特征Zkks输入图卷积模块进行编码,得到最终的区域特征 其中,表示节点k在关系s下的邻居节点,σ是ReLU激活函数,是由网络学出的第l层的关系s的参数;步骤3.3,特征融合对取平均值得到平均区域编码特征将和gks融合,得到编码阶段输出的全局特征 步骤4,将全局特征通过双层解码器解码,得到输出并将通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;所述步骤4中双层解码器包括双层LSTM模块,图注意力模块和图更新模块,步骤4的具体过程如下:步骤4.1,构建双层LSTM模块,双层LSTM模块由注意LSTM和语言LSTM构成,t时刻注意LSTM的输入为全局特征输出为 其中,θa是网络参数,Wt-1为词表特征,Drop为dropout操作,为t-1时刻语言LSTM的输出;步骤4.2,将t时刻的区域特征和注意LSTM输出作为双层解码器中图注意力模块的输入,得到内容注意力和图流注意力对和加权融合,获得最终的图注意力,加入图注意力后的注意力区域特征为步骤4.2的具体过程如下:步骤4.2.1,将t时刻的区域特征和注意LSTM输出作为双层解码器中图注意力的输入,,计算两者语义相关度,得到内容注意力 其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;步骤4.2.2,输入图结构的邻接矩阵Mf、前一时刻的图流注意力和注意力区域特征得到t时刻距离为dis的节点的图流注意力: 其中,Ws,Wes,Whs是网络训练的参数,dis为转移距离,为t时刻距离为dis的节点的图流注意力,是上一时刻的图流注意力;步骤4.2.3,将内容注意力和图流注意力进行加权融合,得到最终的图注意力: 其中,βt为t时刻网络学习到的权重;加入图注意力后的注意力区域特征为 其中,表示t时刻最终区域特征;步骤4.3,将注意LSTM的输出和注意力区域特征作为语言LSTM的输入,生成t时刻的预测结果输出 其中,θl是网络训练的参数;步骤4.4,构建图更新模块,在图注意力下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为 其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,是语言LSTM的预测结果输出,是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为 将擦除操作和增添操作结合,更新图以进行下一个解码步骤: 其中,fa是全连接网络,θa是网络参数,是网络学习到的更新强度;步骤5,构建单词精细模块,选择出更准确更独特的单词;所述步骤5具体包括将LSTM的预测结果输出通过两个不同全连接层,使特征变为词典维度大小的概率后,将两结果进行点乘得到最终的融合单词概率: 其中,f1和f2为不同的全连接层,是按位点乘操作,输出为每个单词的概率;步骤6,构建单词校正模块,通过单词校正模块输出语句;所述步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词: 其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,按照单词概率在候选词典中随机采样出bk个词;之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的;步骤7,使用标准的交叉熵损失训练网络,完成网络构建;所述步骤7包括对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:

全文数据:

权利要求:

百度查询: 西安理工大学 提高图像文本描述独特多样性的网络构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。