买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于平衡损失的Resnet-3D卷积牛视频目标检测方法_易采天成(郑州)信息技术有限公司_202011578813.0 

申请/专利权人:易采天成(郑州)信息技术有限公司

申请日:2020-12-28

公开(公告)日:2024-03-22

公开(公告)号:CN112613428B

主分类号:G06V20/40

分类号:G06V20/40;G06V40/10;G06V10/25;G06V10/764;G06V10/82;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.02.13#专利申请权的转移;2021.04.23#实质审查的生效;2021.04.06#公开

摘要:本发明公开了一种基于平衡损失的Resnet‑3D卷积牛视频目标检测方法。本发明步骤如下:1、将输入的原始牛群视频序列切分成帧,获得帧图片数据集并标注;然后对标注好的帧图片数据集进行划分,获得训练集与测试集;2、以滑动窗口的方式选取多个连续帧图片,依次得到连续的帧图片序列,从而对数据集进行扩充增强;3、将得到的帧图片序列通过目标检测网络Fasterrcnn进行分类回归和位置回归,获取目标检测模型;4、将测试视频输入训练好的目标检测模型,得到牛的检测框及其置信度。本发明能有效解决高密度牛群因遮挡而检测不到的问题。同时本发明中是使用视频做测试,通过网络模型输出的是视频,可以有效解决图像融合视频时目标短暂丢失的问题。

主权项:1.基于平衡损失的Resnet-3D卷积牛视频目标检测方法,其特征在于包括以下步骤:S1、数据集制作:将输入的原始牛群视频序列切分成帧,获得帧图片数据集,使用标注软件对选取的连续帧图片进行标注,得到带标注的帧图片数据集;然后对标注好的帧图片数据集进行划分,获得训练集与测试集;S2、以滑动窗口的方式选取多个连续帧图片,依次得到连续的帧图片序列,通过此方法获得不同的连续帧图片来对数据集进行扩充增强,同时通过连续帧图片倒序排列的方式进行增强;S3、将步骤S2得到的帧图片序列通过目标检测网络Fasterrcnn进行分类回归和位置回归,获取目标检测模型;S4、将测试视频输入训练好的目标检测模型,得到牛的检测框及其置信度;步骤3具体实现如下:S3.1、将训练集与测试集中标注好的帧图片,制成相应的文件格式,然后输入目标检测网络Fasterrcnn训练网络参数,得到一个相对较好的牛群目标检测模型;S3.2、帧图片序列进入目标检测网络Fasterrcnn后会经过残差网络作为主干网络进行特征提取,使用Resnet-101作为特征提取的主干网络,并对主干网络的网络结构进行改进,使用3D卷积;主干网络分为5个卷积结构,分别为conv1、conv2_x、conv3_x、conv4_x、conv5_x;conv1是一个步长为2的3D卷积层,conv2_x、conv3_x、conv4_x、conv5_x是4个残差3D卷积模块,conv2_x是由一个步长为2的最大池化层和3个残差3D卷积层组成,conv3_x是由4个残差3D卷积层组成,conv4_x是由23个残差3D卷积层组成,conv5_x是由3个残差3D卷积层组成;每个卷积模块都由卷积层、BN、ReLU构成,其中ReLU激活函数的表达式如下:fx=max0,x1其中,x为神经元的输入;使用ReLU激活函数的目的能够克服梯度消失的问题,并且加快训练速度;S3.3、帧图片序列经过主干网络特征提取完成之后得到特征图,特征图输入区域生成网络得到分类和候选框;所述的区域生成网络包括分类网络和回归网络:分类网络通过softmax分类候选框,得到目标和背景分类;回归网络用于计算候选框的边界框回归偏移量,获得精确的候选框;区域生成网络对输入的特征图进行目标候选框选定,然后将目标候选框选定的特征送入分类网络和回归网络,分类网络和回归网络分别输出特征部位类别分类得分和边框坐标;区域生成网络的思想是在特征图设定一个锚点机制,对于特征图中每个像素点进行一个3×3窗口的滑动,对于这个窗口的中心点考虑可能的候选窗口,即可能的组合长方形,而这个组合长方形是由三种面积1282、2562、5122组合而成,且每种面积对应的长方形的长宽的比例为1:1、1:2、2:1;因此一个中心点就能够衍生出3*3=9个长方形的候选框,去掉候选框对应区域中映射到原图上超过原图区域的候选框,这样在一个特征图上能够衍生出一系列的候选框;S3.4、分类网络通过全连接层和softmax计算候选框中目标的类别;回归网络利用Boundingboxregression获得每个候选框的位置偏移量,用于获得更加精确的目标检测框;所述的步骤S3.4中通过Softmax函数将多分类的输出值转换为范围在[0,1]的概率分布,Softmax函数定义如下: 其中i为节点的序号,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;Softmax函数的输出值包括概率和标签值;S3.5、使用二分类的交叉熵损失并引入权重参数α∈[0,1]来解决类别不平衡的模型优化偏差;对于每个类别预测到的概率为p和1-p;此时交叉熵损失L的表达式为: 其中:yi表示样本中候选框i的标签值,正类为1,负类为0;pi表示样本中候选框i预测为正的概率;权重参数α∈[0,1];N为样本数;S3.6、采用BalancedL1loss损失函数对候选框进行位置定位;做牛训练集时,使用BalancedL1loss损失函数解决边界不确定的候选框的回归问题,不让模糊样本对loss造成大的干扰,从而找到更精准的边界框;BalancedL1loss损失函数定义如下: 表达式4中是第i个回归框对应u类的回归结果,vi是回归目标,对于表达式4中Lb·表示为表达式5,为了函数的连续性,需要满足x=1时,Lb1=γ,即αlnb+1=γ,即其中b用于表达式5中与Lb1有着相同的值,其中设置α=0.5,γ=1.5。

全文数据:

权利要求:

百度查询: 易采天成(郑州)信息技术有限公司 基于平衡损失的Resnet-3D卷积牛视频目标检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。