买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于特征增强的行人检测方法_新疆大学_202410121027.X 

申请/专利权人:新疆大学

申请日:2024-01-27

公开(公告)日:2024-04-30

公开(公告)号:CN117953540A

主分类号:G06V40/10

分类号:G06V40/10;G06V10/82;G06N3/0464;G06N3/048;G06V10/764

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:本发明属于计算机视觉技术领域,一种基于特征增强的行人检测方法,包括以下步骤:1行人数据的建立与处理,2搭建基于特征增强的行人检测网络框架,3对基于特征增强的行人检测网络进行训练和测试。本发明基于特征增强的行人检测网络由输入、主干子网络、颈部子网络和头部子网络组成,不同的部分完成不同的任务,本发明提出的基于特征增强的行人检测方法在行人检测性能方面优于其他主流行人检测方法,其检测精度达到95.2%,召回率为85.2%,平均检测精度为93.4%,可以有效地完成各种场景下的行人检测任务,达到理想的行人检测效果。

主权项:1.一种基于特征增强的行人检测方法,其特征在于包括以下步骤:步骤1、行人数据的建立与处理,通过相机采集不同场景下的行人,利用标注工具LabelImg对不同场景中的行人进行标注,标注信息包括行人边界框的左上角横坐标x1,行人边界框的左上角纵坐标y1,行人边界框的宽度w1和行人边界框的高度h1,为方便检测网络精确检测,将标注的行人数据进行数据转换并归一化处理,通过公式1、2、3、4进行描述, 其中,m表示原始图像像素的宽度,n表示原原始图像像素高度,x表示行人边界框的中心点横坐标,y表示行人边界框的中心点纵坐标,w表示归一化后行人边界框的宽度,h表示归一化后行人边界框的高度,行人数据按8:2的比例分为训练集和测试集,完成行人数据的建立和处理工作;步骤2、构建基于特征增强的行人检测网络,以YOLO网络为基础,构建基于特征增强的行人检测网络,该网络包含输入、主干子网络、颈部子网络和头部子网络,输入部分将已经处理的数据导入基于特征增强的行人检测网络中,主干子网络包含5个卷积CBS模块、4个跨阶段局部CSP模块、1个挤压与激励SE模块和1个快速空间金字塔池化SPPF模块,完成特征提取任务;颈部子网络包含2个卷积CBS模块、4个跨阶段局部CSP模块、2个坐标卷积Coordconv模块、2个上采样模块和4个双向加权特征金字塔BiFPN模块,融合从骨干中提取的特征;最后头部子网络主要负责预测不同大小的行人,具体包括以下子步骤:a主干子网络完成基于特征增强的行人检测网络特征提取工作,其作用是从输入的图像中提取行人特征以捕捉图像中最重要的视觉信息,各模块作用如下:CBS模块通过对输入数据进行3×3卷积运算,归一化和激励操作完成特征提取任务;CSP模块在CBS模块的基础上进一步卷积运算,从而增加基于特征增强的行人检测网络的深度和感受野;SE模块首先对输入的特征进行全局池化操作,然后通过两个全连接层和两个激活函数,对特征进行调整变成每一个特征的权重,最后与输入的特征进行相乘,从而强化基于特征增强的行人检测网络的特征表达能力;SPPF模块对SE模块输出的特征进行1×1卷积运算,得到特征向量k1,然后在池化层进行多次池化操作得到不同尺度下的特征向量d1、d2、d3,最后将池化后的特征向量d1、d2、d3和未经过池化的特征向量k1拼接到一起,经过1×1卷积运算得到最终的输出特征,从而提高基于特征增强的行人检测网络对不同尺度行人的检测能力;主干子网络模块顺序依次是CBS模块、CBS模块、CSP模块、CBS模块、CSP模块、CBS模块、CSP模块、CBS模块、CSP模块、SE模块、SPPF模块,特征提取过程中模块参数变化:1CBS模块参数:卷积核大小6×6、步长为2、边缘填充为2、输出通道数为64;2CBS模块参数:卷积核大小3×3、步长为2、边缘不填充、输出通道数为128;3CSP模块参数:输出通道数为128;4CBS模块卷积核大小3×3、步长为2、边缘不填充、输出通道数为256;5CSP模块参数:输出通道数为256;6CBS模块卷积核大小3×3、步长为2、边缘不填充、输出通道数为512;7CSP模块参数:输出通道数为512;8CBS模块卷积核大小3×3、步长为2、边缘不填充、输出通道数为512;9CSP模块参数:输出通道数为512;10SE模块参数:输出通道数为512;11SPPF模块参数:卷积核大小5×5、步长为1、边缘不填充、输出通道数为1024;以此,便完成了基于特征增强的行人检测网络特征提取过程;b颈部子网络完成基于特征增强的行人检测网络特征融合工作,其作用是增强不同模块之间特征信息的传递,提高基于特征增强的行人检测网络各模块间特征的融合效率,各模块作用如下:CBS模块作用同步骤2子步骤a主干子网络CBS模块;CSP模块作用同步骤2子步骤a主干子网络CSP模块;Coordconv模块提取特征中的空间信息,首先对上一层的输出添加坐标信息,添加的坐标分别为a坐标和b坐标,并将其作为附加信息与原始特征进行融合,然后再经过1×1卷积运算,最终返回卷积结果,Coordconv模块可以突出细节,减少特征损失,增强边界信息;上采样模块将低分辨率的特征图放大到高分辨率,捕捉目标的细节信息;BiFPN模块提取和融合多尺度的特征信息,通过公式5进行描述, 其中,i和j表示特征融合节点的输入层数,ti和tj表示输入特征层的权值,ε表示约束数值振荡的极小值学习率,Ii表示节点的输入特征值,O表示加强特征融合后的输出值;颈部子网络模块顺序依次是Coordconv模块、上采样、BiFPN模块、CSP模块、Coordconv模块、上采样、BiFPN模块、CSP模块、CBS模块、BiFPN模块、CSP模块、CBS模块、BiFPN模块、CSP模块,紧接主干子网络特征提取过程,特征融合过程中模块参数变化:12Coordconv模块参数:卷积核大小1×1、步长为1、边缘不填充、输出通道数为512;13上采样;14BiFPN模块,将上采样后的结果和主干子网络6CBS模块的输出结果进行拼接,并融合其特征;15CSP模块参数:输出通道数为512;16Coordconv模块参数:卷积核大小1×1、步长为1、边缘不填充、输出通道数为256;17上采样;18BiFPN模块:将上采样后的结果和主干子网络4CBS模块的输出结果进行拼接,并融合其特征;19CSP模块参数:输出通道数为256;20CBS模块参数:卷积核大小3×3、步长为2、边缘不填充、输出通道数为512;21BiFPN模块,将上一步得到的输出结果和颈部子网络15CSP模块的输出结果、主干子网络6CBS模块的输出结果进行拼接,并融合其特征;22CSP模块参数:输出通道数为512;23CBS模块参数:卷积核大小3×3、步长为2、边缘不填充、输出通道数为512;24BiFPN模块,将上一步得到的输出结果和颈部子网络12Coordconv模块的输出结果进行拼接,并融合其特征;25CSP模块参数:输出通道数为1024;以此,便完成了基于特征增强的行人检测网络特征融合过程;c头部子网络完成行人预测定位工作,其作用是负责在检测过程中生成预测的边界框,以及对边界框进行分类和调整,本网络使用20×20、40×40和80×80检测头来检测不同大小的行人,为了解决头部子网络检测时难易样本的不均衡问题,基于特征增强的行人检测网络中我们设计使用WIoU损失函数提升检测精度,通过公式6进行描述, 其中,lWIoU表示WIoU损失,lIoU表示IoU损失,xp表示预测行人边界框的中心点横坐标,yp表示预测行人边界框的中心点纵坐标,xgt表示真实行人边界框的中心点横坐标,ygt表示真实行人边界框的中心点纵坐标,wg表示最小行人边界框的宽度,hg表示最小行人边界框的高度,wp表示预测行人边界框的宽度,hp表示预测行人边界框的高度,wi表示预测行人边界框与真实行人边界框重叠区域的宽度,hi表示预测行人边界框与真实行人边界框重叠区域的高度,γ表示非单调聚焦系数,α和δ表示超参数,β表示离群度,表示单调聚焦系数,表示动量的滑动平均值;步骤3、对基于特征增强的行人检测网络进行训练和测试,具体包括以下子步骤:a将处理好的数据输入到构建好的行人检测网络中进行行人检测,输出带有边界框的行人;b配置实验环境,实验在Ubuntu18.04,GPU型号RTX3080,内存24GB,CUDA11.0,Cudnn8.0.5,PyTorch1.8.1,Python3.8环境下完成,网络的批大小batchsize为40,初始学习率为0.01,迭代轮数为150轮,优化器为SGD优化器;c网络模型测试,主要评价指标为准确率precisionrate,P、召回率recallrate,R和平均准确率meanaverageprecisionrate,MAP,通过公式7、8、9进行描述, 其中:TP表示被正确分类的正样本数量,FP表示被错误分类为正样本的负样本数量,FN表示被错误分类的负样本数量,f表示检测样本数量,表示利用准确率和召回率绘制PR曲线并求其积分,得到各类别PR曲线的面积,进而得到每个种类的平均准确率,K表示类别数量。

全文数据:

权利要求:

百度查询: 新疆大学 基于特征增强的行人检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。