Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜贵州大学邓宏宇获国家专利权

恭喜贵州大学邓宏宇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜贵州大学申请的专利一种基于窗口自注意与多尺度机制的图像密集描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116543146B

龙图腾网通过国家知识产权局官网在2023-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310822911.1,技术领域涉及:G06V10/25;该发明授权一种基于窗口自注意与多尺度机制的图像密集描述方法是由邓宏宇;王崎;王建军;吴雪;张邦梅设计研发完成,并于2023-07-06向国家知识产权局提交的专利申请。

一种基于窗口自注意与多尺度机制的图像密集描述方法在说明书摘要公布了:本发明公开了一种基于窗口自注意与多尺度机制的图像密集描述方法,由一个目标检测器和一个区域描述生成器组合而成,在目标检测器内部,输入图像经由基于窗口注意力的特征编码器进行图像表征的学习和提取,该特征编码器由12层ViT模块堆叠而成,在各层模块内,图像特征图被划分为多个大小均等的窗口并进行窗口内的注意力运算,特征编码器计算出5种不同尺度的图像特征,并通过目标检测头预测出关键区域的位置信息,模型据此从多尺度特征中切割出区域特征,区域描述生成器采用预训练BERT模型作为核心,依据输入的全局表征和区域特征,以自回归的方式进行区域描述的生成。本发明能够准确捕捉图像多个关键对象并生成高质量描述。

本发明授权一种基于窗口自注意与多尺度机制的图像密集描述方法在权利要求书中公布了:1.一种基于窗口自注意与多尺度机制的图像密集描述方法,包括下述步骤:步骤1输入图像X粗处理:输入尺寸等于1024×1024的图像X,将X划分为边长为k的多个正方形图像块,利用大小为k×k的卷积核进行粗处理,得到粗图像特征X’;步骤2图像全局表征Vf的计算:输入粗图像特征X’,通过预训练ViT模型作为图像的特征编码器,获取到图像的全局表征Vf,ViT模型由多层Transformer模块堆叠而成,在每层Transformer模块内,图像表征将被划分为边长为α的正方形窗口,仅计算窗口内各像素间的注意力,经过多层网络计算,最终获得全局表征Vf,获得全局表征Vf的方法如下:在每层Transformer模块内,设某层为第i层Transformer,设定窗口尺寸为α×α,将该网络层的输入特征Vi进行边缘的填充,使得其尺寸为窗口尺寸的整数倍,填充后的特征将均分为数个大小相等的窗口特征集,记为Vi’;然后,窗口特征集Vi’通过三个全连接层运算出查询向量qi、键值向量ki以及权值向量vi,并沿最后一维均匀划分为nhead部分,公式如下:qi=DivLinearVi’,nheadki=DivLinearVi’,nheadvi=DivLinearVi’,nhead查询向量qi与键值向量ki的转置向量kiT进行相乘并使用softmax函数进行处理,计算窗口内部像素间的注意力矩阵Attni,公式如下:Attni=softmaxqi·kiT设权值向量vi最后一维的数目为d,Attni将与vi相乘,公式如下:Ai+1=Attnid12·vi计算结果Ai+1将按照各窗口的位置还原回与输入特征Vi相同的形状,记为Ai+1’,Ai+1’将通过后续的前馈网络模块FFNi进行映射,从而学习到更优的图像表征Vi+1,公式如下:Vi+1=FFNiAi+1’=LinearReLULinearAi+1’经过多层网络计算,最终获得全局表征Vf;步骤3多尺度特征获取:取上一步骤获取到的全局表征Vf,分别经过5种不同的卷积神经网络分支,获取到多尺度特征集F={f1,f2,f3,f4,f5},从而适用于不同大小的目标检测;步骤4显著目标预测与区域特征提取:步骤4.1显著目标预测,对于多尺度特征集F={f1,f2,f3,f4,f5},分别采用5个独立的预测网络头部识别图像特征中包含的目标;第i个预测网络头部,其输入为fi,fi使用卷积核大小为3×3的卷积层提取局部特征,然后通过GroupNorm分组归一化处理,最后通过激活函数RELU,公式如下:fi’=ReLUGroupNormConvfi上述过程将重复4次;各预测网络头部设置可学习参数Ai与Mi,分别与fi’进行相加与相乘操作,公式如下:fi”=fi’+Ai·Mi对于空间特征fi”,分别采用两种卷积网络分支获取出该尺度下预测空间坐标bboxi和置信度agni,公式如下:bboxi=ReLUConvfi”agni=Convfi”步骤4.2目标检测器训练与损失函数,对于目标检测器的显著区域预测结果BBOX={bbox1,bbox2,bbox3,bbox4,bbox5},找出训练数据集中与每个预测结果距离最为接近的目标,定义该目标集合为Target;采用度量指标CIOU衡量预测结果与实际目标的差距,CIOU与目标检测器性能成正比;定义预测区域为g,实际目标区域为t,则CIOU计算公式如下:CIOU=IOU-ρ2g,tc2-βvIOU=|g∩t||g∪t|v=4π2arctanwtmt-arctanwm2β=v1-IOU+v其中,ρ表示预测区域g与实际目标区域t的中心点间的欧氏距离,c表示预测区域g与实际目标区域t的最小闭包区域的对角线距离,wt和mt分别表示实际目标区域t的宽度和高度,w和m分别表示预测区域g的宽度和高度;用于训练目标检测器的损失函数Ldec计算公式如下:Ldec=1-CIOU步骤4.3区域特征提取,根据目标检测器的显著区域预测结果BBOX,从多尺度特征集F上切割对应区域的特征,区域特征集记为R;步骤5图像密集描述生成:步骤5.1文本特征T’的提取,根据步骤4.2中确定的目标集合为Target,从训练数据集中收集区域对应的自然语言描述,定义该自然语言描述集合为TargetText;使用预训练BERT模型的词嵌入层将TargetText转换为词向量特征,定义为T;对于n维词向量特征T,计算词向量位置编码PEn并叠加在词向量特征T上,最终得到文本特征T’,公式如下:PEn={PEpos,2i=sinpos10002i,PEpos,2i+1=cospos10002i}T=T+PEn其中pos∈[1,2,…],i∈[0,1,…,n2];步骤5.2描述生成,用全连接层将区域特征集R映射到高维空间,记为高维区域特征R’;将全局表征Vf,高维区域特征R’与文本特征T’进行拼接,得到多模态特征H,公式如下:H=ConcatVf,R’,T’描述生成器以多模态特征H为输入,使用预训练BERT模型进行多模态信息的融合,BERT模型由多层Transformer网络层堆叠而成,每一层的Transformer的运算过程对于输入的多模态特征H进行自注意力计算,记BERT模型的计算结果为H’;定义模型内置单词表规模为Evoc,使用全连接层将H’映射至高维Evoc,并使用softmax函数进行处理,定义输出结果为prol,公式如下:prol=softmaxLinearH’其中,l为生成区域描述的最大长度;proli定义为生成区域描述第i个位置上各单词的预测概率,取概率最大值对应单词作为该位置的候选单词wi;最终,生成区域描述W={w1,w2,…,wl};步骤5.3描述生成器训练与损失函数,取自然语言描述集合TargetText,将其转换为长度为Evoc的独热码,用于损失函数的计算;对独热码进行标签平滑处理,定义某条独热码为h,其经标签平滑处理结果为h’,则标签平滑过程公式如下:h’=1.0-eps·h+epsEvoc其中eps为自定义的一个较小的常数,设定为10-12;完成上述操作后,采用交叉熵函数计算生成密集描述的损失Lce;Lce的计算公式如下:Lce=-Σi=1Nlogpyi*|y1:i-1*其中y1:N*是一条来自TargetText的区域描述,长度为N,p是描述生成器预测的概率,yi*表示区域描述位置为i的字符。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人贵州大学,其通讯地址为:550025 贵州省贵阳市花溪区贵州大学科研院;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。