首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于改进YOLOv4的非结构环境下葡萄识别方法_江苏大学_202210481476.6 

申请/专利权人:江苏大学

申请日:2022-05-05

公开(公告)日:2024-05-14

公开(公告)号:CN115050021B

主分类号:G06V20/68

分类号:G06V20/68;G06V20/10;G06V10/774;G06V10/80;G06V10/82;G06V10/40;G06V10/762;G06N3/0464;G06N3/048;G06N3/0985

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2022.09.30#实质审查的生效;2022.09.13#公开

摘要:本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focalloss优化BCEloss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。

主权项:1.基于改进YOLOv4的非结构环境下葡萄识别方法,其特征在于,具体步骤如下:步骤一,构建数据集;步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;步骤1.2,对葡萄目标进行标注;步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;步骤1.4,将数据集分为训练集、测试集、验证集;步骤二,构建特征提取网络;步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式1所示: 其中分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式2所示: 其中E为在所有通道和空间维度的集合,X为输入特征图;步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2;步骤2.3,将SimAM注意力模块嵌入到YOLOv4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式3所示:F2.3.3=F2.3.2+φ3φ1F2.3.2n3;其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式4所示:F2.3=ψφ1CatF2.3.1,φ1F2.3.34;其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5;步骤三,构建特征融合网络;步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式5所示:F3.2.1=Catτ5F3.1,τ9F3.1,τ13F3.15;其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式6所示:F3.3=Φ5CatupF3.2,φ1P46;其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式7所示:F3.4=Φ5CatupF3.3,φ1P37;其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式8所示:F3.5=Φ5ω0*F3.3+ω1*downF3.4+ω2*F3.3.28;其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式9所示:F3.6=Φ5CatdownF3.5,F3.29;其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;步骤四,预测目标与损失传递;步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;步骤4.2,使用BCEloss和CIoUloss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式10所示: 其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,为预测的置信度;分类损失如公式11所示: 其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,为预测的概率;定位损失如公式12所示: 其中IoU为真实边界框与预测边界框的交并比,ρ2b,bgt为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;步骤4.3,使用Focalloss函数优化BCEloss,如公式13所示: 其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;步骤4.4,最终损失函数如公式14所示: 其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;步骤五,优化模型训练与测试。

全文数据:

权利要求:

百度查询: 江苏大学 基于改进YOLOv4的非结构环境下葡萄识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。