买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多层次注意力机制的单目标追踪方法_中南大学_202210047253.9 

申请/专利权人:中南大学

申请日:2022-01-17

公开(公告)日:2024-04-16

公开(公告)号:CN114399533B

主分类号:G06T7/246

分类号:G06T7/246;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.05.13#实质审查的生效;2022.04.26#公开

摘要:本发明公开了一种基于多层次注意力机制的单目标追踪方法,其实施方案为:1获取数据集与追踪标签;2选取并裁剪追踪样本;3提取、展平、拼接样本图像特征图;4构建多层次注意力网络;5构建特征增强模块;6构建目标预测网络;7获取追踪模型;7构建损失函数;8训练追踪模型;9单目标追踪。本发明构建的追踪模型,利用多层次注意力网络对搜索区域和模板的图像特征进行全局的相关性建模,产生多层的注意力特征;利用特征增强模块对多层注意力特征进行融合,获得目标的最终预测结果。该模型能够解决当追踪目标发生大的形变时难以追踪的问题,并可有效提高单目标追踪的准确率和鲁棒性。

主权项:1.一种基于多层次注意力机制的单目标追踪方法,其特征在于包括以下步骤:1获取数据集与追踪标签:从单目标追踪公开数据集中获取追踪视频的帧序列与对应的追踪标签;2选取并裁剪追踪样本,具体包括以下步骤:2-a读取步骤1获取的追踪视频帧序列,将第一帧作为初始模板帧,从第二帧开始逐帧读取,并将之作为搜索帧;在初始模板帧和搜索帧之间选取一帧作为动态模板帧,选取方式为: 其中,表示动态模板帧的相对位置,nS代表搜索帧的相对位置,N为动态模板帧的更新间隔,N为正整数,且取值范围为[1,300],符号表示向下取整;2-b将初始模板帧、动态模板帧和搜索帧分别裁剪到HT2×WT2和HS×WS像素大小,并将它们分别作为初始模板、动态模板和搜索区域,其中Hi和Wii=T1,T2,S分别代表高度和宽度,且Hi和Wii=T1,T2,S都为正整数,取值范围为[50,500];3提取、展平、拼接样本图像特征图,具体包括以下步骤:3-a利用卷积神经网络提取步骤2获得的初始模板、动态模板和搜索区域的图像特征,分别得到特征图和其中R代表实数,k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数,k取正整数,且k的取值范围为[2,64];C代表得到的特征图的通道数,C取正整数,且C的取值范围为[2,2048];3-b展平并拼接特征图和fS,得到特征序列其中特征序列fα的长度Xα由特征图和fS的高和宽计算得到,Xα的定义如下: 4构建多层次注意力网络,具体包括以下步骤:4-a构建自注意力模块,该模块一共包含n组相同的自注意力层,自注意力层由一个多头注意力模块,两个残差与批归一化模块,一个前馈模块组成;步骤3-b得到的特征序列fα依次经过这n组自注意力层,分别得到自注意力特征矩阵Si,i=1,2,…,n;4-b构建自增强模块,该模块一共包含n组相同的自增强层,自增强层由一个多头注意力模块,一个残差与批归一化模块组成;4-c构建相互注意力模块,该模块一共包含n组相同的相互注意力层,相互注意力层与4-a所述自注意力层在结构上完全一致;4-d构建随机初始化矩阵q∈R1×C,其中R代表实数,C与步骤3-a中特征图的通道数相同;4-e将随机初始化矩阵q输入到步骤4-b构建的第一组自增强层,得到注意力特征矩阵E1,将E1与步骤4-a中得到的自注意力特征矩阵S1输入到步骤4-c构建的第一组相互注意力层,得到相互注意力特征矩阵M1;将M1输入到步骤4-b构建的第二组自增强层,得到注意力特征矩阵E2,将E2与步骤4-a中得到的自注意力特征矩阵S2输入到步骤4-c构建的第二组相互注意力层,得到相互注意力特征矩阵M2;依此类推,直到得到最后一个相互注意力特征矩阵Mn;5构建特征增强模块,具体包括以下步骤:5-a利用sigmoid激活函数将步骤4-a得到的自注意力特征矩阵S1内部特征值映射为0到1分布,并与步骤4-a得到的自注意力特征矩阵Sn逐像素相乘,得到自注意力特征增强矩阵H,H的计算公式如下: 其中表示逐像素相乘操作;5-b将步骤5-a得到的自注意力特征增强矩阵H和步骤4-e中得到的相互注意力特征矩阵Mn逐列数乘,获得H和Mn之间的相似性关联矩阵D,逐列数乘的操作定义如下: 其中⊙表示逐列数乘操作,C与步骤3-a中特征图的通道数相同,Xα与步骤3-b中特征序列fα的长度相同;再将H与D逐像素相乘,得到目标特征描述矩阵T,T的计算公式如下: 6构建目标预测网络:构建目标预测网络,该网络一共包含五组结构相同的卷积块,将步骤5-b得到的目标特征描述矩阵T依次经过这五组卷积块,得到目标矩形框的左上角、左下角、右上角和右下角的坐标和该矩形框所在区域即为最终目标的预测结果;7获取追踪模型:结合步骤4构建的多层次注意力网络、步骤5构建的特征增强模块和步骤6构建的目标预测网络,获得最终的追踪模型;8构建损失函数:根据单目标追踪的任务特点构建基于平均绝对误差损失与广义交并比损失的损失函数Lmix,定义如下: 其中L1表示平均绝对误差损失,LGiou表示广义交并比损失,和λGiou为平衡L1和LGiou的超参数,和λGiou为正实数,且取值范围为[1,20];xtl,xbl,xtr和xbr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值,ytl,ybl,ytr和ybr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值,A表示预测目标矩形框的面积,B表示标签矩形框的面积,Z表示包围预测目标矩形框和标签矩形框的最小矩形面积;9训练追踪模型:利用步骤3得到的特征序列fα训练步骤7构建完成的追踪模型,根据步骤8构建的损失函数得到损失值,并使用随机梯度下降法更新追踪模型内的参数,直到损失函数的损失值不再下降,得到训练好的追踪模型;10单目标追踪:获取单目标追踪视频的帧序列,首先按照步骤2选取并裁剪追踪样本,再按照步骤3分别提取、展平、拼接样本图像特征图,得到特征序列,将特征序列输入到步骤9得到的训练好的追踪模型,输出目标追踪结果。

全文数据:

权利要求:

百度查询: 中南大学 一种基于多层次注意力机制的单目标追踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。