首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法_江南大学_202011516155.2 

申请/专利权人:江南大学

申请日:2020-12-21

公开(公告)日:2024-05-03

公开(公告)号:CN112651995B

主分类号:G06T7/246

分类号:G06T7/246;G06T7/277;G06V10/25;G06V10/82;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.05.03#授权;2021.04.30#实质审查的生效;2021.04.13#公开

摘要:本发明公开了基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法,属于计算机视觉技术领域。所述方法设计了一个聚合多个功能模块的网络结构,利用ECC与Kalman滤波器的融合模式作为运动模型,同时本申请采用了一种端对端的训练方法,利用目标的预测位置和真实位置扩充训练数据,最后,采用融合了目标历史外观信息的指标损失来训练网络中的外观提取模块。本发明方法能够提高各个功能模块之间的兼容性以及对于多目标跟踪任务的适应性,改善模型的身份保存能力,具有较好的在线多目标跟踪性能。

主权项:1.一种基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法,其特征在于,所述方法采用聚合了目标分类、边界框回归以及目标外观特征提取功能的网络结构进行目标跟踪,采用端对端的方法对网络进行训练,且在训练网络时,模拟在线的多目标跟踪过程,记录目标在每一帧的真实位置作为其跟踪轨迹,然后利用运动预测模型预测目标在训练帧中的边界框,利用预测出的目标在训练帧中的边界框位置和真实位置生成包含正负样本的推荐区域来扩充训练数据,然后,所述方法利用增强相关系数ECC与Kalman滤波器的融合模式作为运动模型,提供更准确的预测位置;最后,所述方法采用能够利用目标历史外观信息的指标损失来训练网络中的外观提取模块;采用最后得到的网络模型进行在线多目标跟踪;所述方法包括:1建立跟踪网络模型:采用残差网络以及特征金字塔的作为骨干网络backbone,然后分别连接由两层全连接层组成的回归头、分类头和外观特征提取头,得到跟踪网络模型;2建立批数据:从训练视频序列中随机选择连续的N帧图像作为批数据;3载入第一帧图像:将批数据中第一帧图像输入到跟踪网络模型的backbone中得到整张图像的特征映射4初始化跟踪状态:利用第一帧图像的真实标签数据初始化每个目标的跟踪状态,其中,跟踪状态包括目标的Kalman状态和历史感兴趣区域ROI特征;利用目标的真实位置pos=[cx,cy,w,h]计算目标的Kalman状态中的宽高比a:a=wh1其中cx,cy为目标的中心位置,w,h为边界框的宽、高,为前四个变量cx,cy,w,h的速度,初始化为0;Kalman状态还包括不确定性协方差P,P的尺寸为8×8,P的对角线元素为[0.1h,0.1h,0.01,0.1h,0.0625h,0.0625h,0.00001,0.0625h],其余元素为0;ROI特征通过感兴趣区域池化利用目标真实位置从特征映射提取出来;5载入下一帧图像:将下一帧图像输入到跟踪网络模型的backbone中得到整张图像的特征映射6位置预测:利用Kalman滤波器与增强相关系数的融合模式预测目标在当前帧的位置post;7计算区域推荐网络的损失:对满足一定条件的区域推荐网络中的锚点框分配一个正标签:对于与任意真实边界框之间的交并比IoU都小于阈值的锚点框分配一个负标签;正负锚点之外的其他锚点框不参与损失函数的计算;步骤7中一定条件为以下任一条件:i与真实边界框之间的交并比IoU最大的锚点框;ii与任意真实边界框之间IoU超过阈值的锚点框;8利用区域推荐网络生成训练样本:首先将特征映射输入到RPN中,得到每个锚点框对应的分类值和回归系数,根据分类值判断锚点框对应的是背景还是目标;利用回归系数回归对应目标的锚点框,得到正样本边界框,对应背景的锚点框作为负样本边界框;9利用预测位置和真实位置生成推荐区域:利用运动模型的预测位置和数据集中提供的真实位置生成包含正负样本的推荐区域作为网络模型的训练数据,参与计算分类头和回归头的损失;10计算回归头和分类头的损失:从来自RPN和预测位置以及真实位置的正负样本中选择数量为Nsam=256,正负比例为1:3的样本利用下面的公式计算损失: 其中,i2是样本边界框的索引,是样本边界框包含了一个目标的预测概率,来自classificationhead;正样本边界框的对应标签为1,负样本边界框对应的标签为0;为表示预测边界框的4个回归系数,来自regressionhead;而则表示利用真实边界框和样本边界框计算出的回归系数;这两项损失通过样本数量Nsam=256和正样本数量Npos_sam=64进行归一化;11计算行人重识别头的损失:利用目标的真实位置以及其历史ROI特征计算外观特征提取分支的损失Lmetric;12跟踪状态更新:完成一次更新之后,利用目标在当前帧的真实位置更新目标的跟踪状态;首先利用真实位置更新目标的Kalman状态: 其中,Rkal是尺寸为4×4的单位矩阵,表示观测方差,H表示状态变量的转换矩阵,其尺寸为4×8的矩阵,前4×4的部分为单位矩阵,其余元素为0;然后将目标的ROI特征保存到其历史ROI特征中;13更新模型:利用下面公式计算出整个模型的损失函数: 其中,λ1=1、λ2=1和λ3=10分别表示对应子损失的权重因子;然后利用学习率为learn_rate=0.00001的Adam优化器更新整个网络模型的参数W;14选择批数据的下一帧图像并跳转到步骤5;如果当前批数据训练完毕,清空目标的跟踪状态并从训练集中另外选择一段连续帧作为批数据继续训练;当整个训练集的全部数据都参与训练后,迭代次数加1;当迭代次数达到了30次时,结束训练并保存训练好的跟踪网络模型的参数W;15载入第一帧图像:载入视频第一帧图像到跟踪网络模型的backbone中得到整张图像的特征映射16跟踪状态初始化:利用检测结果以及公式1初始化目标的Kalman状态s1,将计算出的外观特征fapp添加到其历史外观特征中,并将这些目标对应的跟踪设置为激活跟踪trackactive;17载入下一帧图像:载入视频下一帧图像到跟踪网络模型的backbone中得到整张图像的特征映射18运动预测:利用和步骤4相同的方法预测目标在当前帧的位置边界框post;19边界框细化:利用激活跟踪trackactive的目标的位置边界框post以及ROIpooling从特征映射中提取ROI特征,将其输入到分类头和回归头得到分类概率Pclass和回归系数[tx,ty,tw,th];将分类概率Pclass低于的目标对应的跟踪设置为丢失跟踪tracklost;对于其他的目标,利用回归系数以及预测边界框post=[cx,cy,w,h]计算其回归位置 从目标的回归位置边界框中提取相应的外观特征fapp添加到对应跟踪的历史外观特征中;然后将回归位置边界框作为真实位置,利用公式6更新对应跟踪的Kalman状态;20检测过滤:从检测中过滤出与激活跟踪的回归位置之间交并比IntersectionoverUnion,IoU大于的边界框,剩余检测作为潜在新目标;21行人重识别:利用潜在新目标对应检测边界框从跟踪网络中得到对应外观特征fapp,然后利用丢失跟踪tracklost中保存的历史外观特征计算出平均外观历史特征fhis_app,然后利用公式12计算出潜在新目标和丢失跟踪两两之间的外观特征距离,并构建外观距离矩阵Ddis_app,利用匈牙利算法进行数据关联,将关联上的跟踪转换为激活跟踪trackactive,并将与之匹配的检测对应的外观特征添加到其历史外观特征中;22新跟踪初始化:将步骤21中剩下的检测利用与步骤16相同的过程初始化为新跟踪;23记录跟踪轨迹:将激活跟踪在当前帧的位置作为对应目标的跟踪轨迹并记录;24处理下一帧:选择视频的下一帧并跳转到步骤17;25获取跟踪结果:当视频序列的所有帧都被处理完之后,提取所有目标的跟踪轨迹作为当前视频的跟踪结果。

全文数据:

权利要求:

百度查询: 江南大学 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。