买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于场景分类和多尺度特征融合的复杂场景人群计数方法_西北工业大学_202010583112.X 

申请/专利权人:西北工业大学

申请日:2020-06-23

公开(公告)日:2020-10-16

公开(公告)号:CN111783589A

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2022.03.15#授权;2020.11.03#实质审查的生效;2020.10.16#公开

摘要:本发明提供了一种基于场景分类和多尺度特征融合的复杂场景人群计数方法。首先,标注并建立密度等级数据集;然后,利用建立的数据集分别对分类、稀疏估计和密集估计子网络进行预训练;接着,结合自标记机制,利用测试数据集对网络再次进行训练;最后,将图片输入到训练好的网络,利用分类权重对两种密度估计结果进行加权后得到人群密度图。采用本发明方法可以解决由于拍摄角度不同导致的图片尺度畸变和人群分布不均问题,具有更高的估计准确度和更强的鲁棒性。

主权项:1.一种基于场景分类和多尺度特征融合的复杂场景人群计数方法,其特征在于步骤如下:步骤1:由公开的数据集ShangHaiTechPartA中随机裁截出2000-4000张图片,并计算这些图片中人数的平均值,以人数平均值的23为阈值α1,以人数平均值的43为阈值α2,将图片中人数低于α1的图片类别标注为稀疏,归入稀疏数据集,将图片中人数高于α2的图片类别标注为密集,归入密集数据集,将图片中人数处于α1和α2之间的图片类别随机标注为稀疏或密集,并归入相应的数据集;如果得到的稀疏数据集和密集数据集中的图片数量不同,在原数据集ShangHaiTechPartA中进行新的图片随机裁截,并按照前面所述方法根据阈值α1和α2进行图片类别标注和分类,直至两个数据集中的图片数量相同;两个数据集共同构成密度等级数据集;步骤2:构建包括前端特征提取模块、分类模块、密集估计模块和稀疏估计模块四个模块的分类估计网络模型,其中,前端特征提取模块由在ImageNet数据集上预训练过的VGG-16的前10层卷积层组成,其输出为512通道的特征图,作为后续三个模块的输入;分类模块包括1个自适应池化层、3个卷积层和1个全连接层,3个卷积层的通道数分别为512、256、128,卷积核大小均为3×3,全连接层的输入为128通道,输出为2通道,分别代表密集与稀疏的权重,权重为0-1范围内的值,两个权重值的和为1;密集估计模块和稀疏估计模块的网络结构相同,均包含6层卷积层,通道数分别为512、256、256、128、32、1,卷积核大小均为3×3,输出分别为密集估计的密度图和稀疏估计的密度图,密度图中的像素值代表在该像素位置处的人数,密度图中所有像素值的和即为图片的人数估计值;所述的特征提取模块与密集估计模块、稀疏估计模块还存在如下连接:特征提取模块的第7层卷积层的输出与密集估计模块的第3层卷积层的输出按通道叠加后输入到密集估计模块的第4层卷积层,特征提取模块的第10层卷积层的输出与密集估计模块的第1层卷积层的输出按通道叠加后输入到密集估计模块的第2层卷积层,特征提取模块的第7层卷积层的输出与稀疏估计模块的第3层卷积层的输出按通道叠加后输入到稀疏估计模块的第4层卷积层,特征提取模块的第10层卷积层的输出与稀疏估计模块的第1层卷积层的输出按通道叠加后输入到稀疏估计模块的第2层卷积层;步骤3:首先,设定分类模块的损失函数为交叉熵损失函数,计算公式为: 其中,LC表示交叉熵损失函数,y表示真值标签密集或稀疏,表示预测标签;固定稀疏估计模块和密集估计模块中的参数,将密度等级数据集输入到网络对分类模块进行训练;然后,设定密集估计和稀疏估计两个模块的损失函数都为均方差损失函数,计算公式为: 其中,LD表示均方差损失函数,N表示测试图片数量,i表示图片标号,yi表示第i张图片的真值人数,y'i表示第i张图片的预测人数;固定分类模块、特征提取模块和稀疏估计模块的参数,将密集数据集输入到网络对密集估计模块进行训练;最后,固定分类模块、特征提取模块和密集估计模块的参数,将稀疏数据集输入到网络对稀疏估计模块进行训练,至此完成整个网络的预训练;步骤4:对于测试数据集,首先,将其训练集中的所有图片输入到步骤3预训练后的网络,并按下式对图片进行密集程度标记: 其中,denD表示密集估计模块输出的人数估计值,denS表示稀疏估计模块输出的人群估计值,gt代表图片中总人数的真实值,label表示输入图片的密集程度标签,Dense表示密集,Sparse表示稀疏;然后,将带密集程度标签的训练集中的所有图片输入到网络进行整体训练,训练中设定网络总的损失函数Lall为:Lall=αLC+βLD4其中,α为控制分类模块比重的权重系数,取值范围为0-1,β为控制密集估计模块和稀疏估计模块比重的权重系数,取值范围为0-1;所述的待测试数据集包括ShanghaiTech数据集、UCF_CC数据集;步骤5:将待计数人群图片输入到步骤4得到的训练好的网络中,经过三个模块的估计,分别得到密集与稀疏的分类权重、密集估计结果和稀疏估计结果,将密集估计结果和稀疏估计结果按照其对应的分类权重进行加权求和,即得到图片的密度图,将密度图中所有像素值相加,即得到图片的估计总人数。

全文数据:

权利要求:

百度查询: 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。