买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于旋转矩形框的轻量化目标识别方法及装置_中国科学院自动化研究所_201810549254.7 

申请/专利权人:中国科学院自动化研究所

申请日:2018-05-31

公开(公告)日:2021-04-27

公开(公告)号:CN108960230B

主分类号:G06K9/32(20060101)

分类号:G06K9/32(20060101);G06K9/62(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.27#授权;2019.01.01#实质审查的生效;2018.12.07#公开

摘要:本发明属于图像分析技术领域,具体提供了一种基于旋转区域的轻量化目标识别方法及装置。旨在解决现有技术目标识别算法复杂度高以及难以识别多个角度目标的问题。本发明提供了一种基于旋转矩形框的轻量化目标识别方法,包括基于预先构建的目标识别网络模型对输入图像进行目标识别,得到输入图像的目标类别。目标识别网络模型基于卷积神经网络构建,包括目标提取模块和目标识别模块。本发明通过合并压缩现有的卷积神经网络,减少了网络参数,降低了算法复杂度。

主权项:1.一种基于旋转矩形框的轻量化目标识别方法,其特征在于包括:基于预先构建的目标识别网络模型对输入图像进行目标识别,得到所述输入图像的目标类别;其中,所述目标识别网络模型基于卷积神经网络构建,所述目标识别网络模型包括目标提取模块和目标识别模块;其中,所述卷积神经网络的卷积层与归一化层进行合并得到归一化结果,并对所述归一化结果进行变化重构: 其中,y表示变化重构后的归一化结果,x表示所述卷积层的输入,w、b分别表示所述卷积层的卷积核的参数和第一偏置,mean、var分别表示采用统计梯度下降法训练数据神经元的平均值和标准差,γ、β分别表示比例和第二偏置;所述目标提取模块基于预先构建的旋转矩形框提取所述输入图像的候选区域,基于预先构建的轻量化神经网络提取所述输入图像的特征图;所述目标识别模块对所述候选区域与所述特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到所述输入图像的目标类别;所述目标提取模块包括多个旋转矩形框,多个所述旋转矩形框配置为提取所述输入图像的图像特征,“提取所述输入图像的特征图”的步骤包括:通过多个所述旋转矩形框提取所述输入图像的特征图;在“提取所述输入图像的特征图”之前,该方法还包括构建多个所述旋转矩形框,其步骤包括:选取基础矩形框,将所述基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;对所述第一类矩形框进行长宽比变化,得到第二类矩形框;将所述第二类矩形框的长宽分别乘以旋转角度,得到多个所述旋转矩形框;所述目标提取模块还用于压缩所述卷积神经网络的激活层和组合层,其步骤包括:压缩所述激活层的步骤包括:按如下式所示的方法将所述激活层的negation层和concatenation层进行合并:NCx=[convx,conv-x]其中,conv表示卷积计算函数;压缩所述组合层的步骤包括:按如下式所示的方法将所述组合层中1*1卷积核的参数与3*3卷积核的参数相加: 其中,W3*3、W1*1分别表示3*3和1*1的卷积核的参数,k表示行索引,s表示列索引,b3*3、b1*1分别表示3*3和1*1的卷积核的偏置,i表示卷积层的输入层数,j表示卷积层的输出层数;上述中,所述轻量化神经网络是将所述卷积神经网络的卷积层与归一化层进行合并,再进行变化重构,并压缩激活层、压缩组合层得到的。

全文数据:基于旋转矩形框的轻量化目标识别方法及装置技术领域[0001]本发明属于图像分析技术领域,具体涉及一种基于旋转矩形框的轻量化目标识别方法及装置。背景技术[0002]遥感目标识别研究是计算机视觉领域中非常重要的基础研究,它是精确制导、武器防御、海情监测等军事系统的关键组成部分,也是提升减灾应急、交通监管、渔业海事等民用系统智能化的核心技术。在传统的遥感目标识别研究中,主要使用人工提取图像特征,比如LBPLocalBinaryPatterns,局部二值特征),H0GHistogramofOrientedGradient,方向梯度直方图)等特征,然后将这些特征以向量形式输入到分类器进行分类,比如SVMSupportVectorMachine,支持向量机)、AdaBoost等,但是由于传统的目标识别方法是通过人工提取特征,因此鲁棒性较差。[0003]近年来,随着深度学习的应用普及极大地推进了目标识别算法的性能,如SSDSingleShotMultiBoxDetector,单向探测器)、FasterR-CNN等都在识别自然图像中取得令人满意的效果,这些深度学习算法通过组合低层特征形成更加抽象的高层表示属性类别或者特征,以发现数据的分布式特征表示。[0004]但是现有技术的目标识别方法应用到遥感目标识别中会存在两个典型问题,第一是算法复杂度较高,现有技术的目标识别算法模型依赖于具有数百甚至数十亿参数的深度网络,传统CPU对如此庞大的网络一筹莫展,只有具有高计算能力的GPU才能让网络得以相对快速训练,对于存储和计算成本要求较高,对移动端不友好;第二是现有技术的目标识别方法只能识别水平矩形框,与自然图像相比,遥感图像中目标以各种角度随机出现,用传统水平矩形框不能紧凑地覆盖感兴趣目标,尤其是当目标并排出现时,用水平矩形框很难区分两个目标,从而影响到分类器性能。[0005]因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。发明内容[0006]为了解决现有技术中的上述问题,即为了解决现有技术目标识别算法复杂度高以及难以识别多个角度目标的问题,本发明提供了一种基于旋转矩形框的轻量化目标识别方法,包括:[0007]基于预先构建的目标识别网络模型对输入图像进行目标识别,得到所述输入图像的目标类别;[0008]其中,[0009]所述目标识别网络模型基于卷积神经网络构建,所述目标识别网络模型包括目标提取模块和目标识别模块;[0010]所述目标提取模块基于预先构建的旋转矩形框提取所述输入图像的候选区域,基于预先构建的轻量化神经网络提取所述输入图像的特征图;[0011]所述目标识别模块对所述候选区域与所述特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到所述输入图像的目标类别。[0012]在上述方法的优选技术方案中,所述目标提取模块包括多个旋转矩形框,“提取所述输入图像的特征图”的步骤包括:[0013]通过多个所述旋转矩形框提取所述输入图像的特征图。[0014]在上述方法的优选技术方案中,在“提取所述输入图像的特征图”之前,该方法还包括构建多个所述旋转矩形框,其步骤包括:[0015]选取基础矩形框,将所述基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;[0016]对所述第一类矩形框进行长宽比变化,得到第二类矩形框;[0017]将所述第二类矩形框的长宽分别乘以旋转角度,得到多个所述旋转矩形框。[0018]在上述方法的优选技术方案中,在“提取所述输入图像的特征图”之前,该方法还包括对所述旋转矩形框进行回归预测,其步骤包括:[0019]按如下式所示的方法对由多个所述输入图像的特征图构成的训练样本集分别进行候选区域分类和坐标回归分析,得到训练参数:[0028]基于所述目标提取模块的训练参数,按如下式所示的方法预测所述训练样本集的候选区域:[0034]其中,Ulsp,u表示分类任务目标损失函数,p表示预测的类别,u为训练样本的标注类别,λ表示常数,tu表示预测的坐标位置,U表示真实的类别,V=Vx,Vy,Vw,Vh,Va表示正样本的对应标注旋转矩形框的回归目标,Vx,Vy,Vw,Vh,Va分别表示旋转矩形框回归目标的中心列坐标,中心行坐标,宽度、高度和旋转角度,t=tX,ty,tw,th,ta为预测向量,P=Px,Py,Pw,Ph,Pa表示感兴趣区域P对应的中心列坐标,中心行坐标,宽度、高度和旋转角度,G为P对应的标注样本,G=;GX,Gy,Gw,Gh,Ga表示感兴趣区域P对应的标注样本的中心列坐标,中心行坐标,宽度、高度和旋转角度,V表示真实的坐标位置I表示感兴趣区域P预测的对应旋转矩形框向量值。[0035]在上述方法的优选技术方案中,所述目标提取模块还用于压缩所述卷积神经网络的激活层和组合层,其步骤包括:[0036]压缩所述激活层的步骤包括:按如下式所示的方法将所述激活层的negation层和concatenationjljjitT'n'^f1:[0037]NCX=[convX,conv-X][0038]其中,conv表示卷积计算函数;[0039]压缩所述组合层的步骤包括:按如下式所示的方法将所述组合层中1*1卷积核的参数与3*3卷积核的参数相加:[0041]其中,别表示3*3和1*1的卷积核的参数,k表示行索引,s表示列索引,b3别表示3*3和1*1的卷积核的偏置。[0042]在上述方法的优选技术方案中,所述目标识别模块识别所述输入图像的目标类别的步骤包括:[0043]利用所述目标识别模块的卷积核对所述图像特征进行卷积操作,生成N个位置敏感分数图;[0044]将N个所述位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;[0045]将进行网格划分后每个网格内的位置敏感分数图进行平均池化处理,得到N个特征图;[0046]通过误差反向梯度传播算法对N个所述特征图进行反向处理,得到所述图像特征的目标类别;[0047]其中,N为正整数。[0048]本发明的第二方面提供了一种基于旋转矩形框的轻量化目标识别装置,包括:[0049]目标识别网络模型,所述目标识别网络模型配置为对输入图像进行目标识别,得到所述输入图像的目标类别;[0050]其中,[0051]所述目标识别网络模型基于卷积神经网络构建,所述目标识别网络模型包括目标提取模块和目标识别模块;[0052]所述目标提取模块基于预先构建的旋转矩形框提取所述输入图像的候选区域,基于预先构建的轻量化神经网络提取所述输入图像的特征图;[0053]所述目标识别模块对所述候选区域与所述特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到所述输入图像的目标类别。[0054]在上述方案的优选技术方案中,所述目标提取模块包括多个旋转矩形框,多个所述旋转矩形框配置为提取所述输入图像的图像特征。[0055]在上述方案的优选技术方案中,所述目标提取模块还包括旋转矩形框构建单元,所述旋转矩形框构建单元配置为:[0056]选取基础矩形框,将所述基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;[0057]对所述第一类矩形框进行长宽比变化,得到第二类矩形框;[0058]将所述第二类矩形框的长宽分别乘以旋转角度,得到多个所述旋转矩形框。[0059]在上述方案的优选技术方案中,所述目标提取模块还包括回归预测单元,所述回归预测单元配置为:[0060]按如下式所示的方法对由多个所述输入图像的特征图构成的训练样本集分别进行候选区域分类和坐标回归分析,得到所述目标提取模块的训练参数:[0069]基于所述目标提取模块的训练参数,按如下式所示的方法预测所述训练样本集的候选区域:[0075]其中,Lclsp,u表示分类任务目标损失函数,p表示预测的类别,u为训练样本的标注类别,λ表示常数,tu表示预测的坐标位置,U表示真实的类别,V=Vx,Vy,Vw,Vh,Va表示正样本的对应标注旋转矩形框的回归目标,Vx,Vy,Vw,Vh,Va分别表示旋转矩形框回归目标的中心列坐标,中心行坐标,宽度、高度和旋转角度,t=tX,ty,tw,th,ta为预测向量,P=Px,Py,Pw,Ph,Pa表示感兴趣区域P对应的中心列坐标,中心行坐标,宽度、高度和旋转角度,G为P对应的标注样本,G=;GX,Gy,Gw,Gh,Ga表示感兴趣区域P对应的标注样本的中心列坐标,中心行坐标,宽度、高度和旋转角度,V表示真实的坐标位置)表示感兴趣区域P预测的对应旋转矩形框向量值。[0076]在上述方案的优选技术方案中,所述目标识别模块包括第一压缩单元和第二压缩单元,所述第一压缩单元配置为压缩所述卷积神经网络的激活层,所述第二压缩单元配置为压缩所述卷积神经网络的组合层;[0077]所述第一压缩单元压缩所述激活层的步骤包括:按如下式所示的方法将所述激活层的negation层和concatenation层进行合并:[0078]NCX=[convX,conv-X][0079]其中,conv表示卷积计算函数;[0080]所述第二压缩单元压缩所述组合层的步骤包括:按如下式所示的方法将所述组合层中1*1卷积核的参数与3*3卷积核的参数相加:[0082]其中,W#3、WM*别表示3*3和1*1的卷积核的参数,k表示行索引,s表示列索引,b3*3、b1*1分别表示3*3和1*1的卷积核的偏置[0083]在上述方案的优选技术方案中,所述目标识别模块包括卷积单元、网格划分单元、池化单元以及目标识别单元;[0084]所述卷积单元配置为利用所述目标识别模块的卷积核对所述图像特征进行卷积操作,生成N个位置敏感分数图;[0085]所述网格划分单元配置为将N个所述位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;[0086]所述池化单元配置为将进行网格划分后每个网格内的位置敏感分数图进行平均池化处理,得到N个特征图;[0087]所述目标识别单元配置为通过误差反向梯度传播算法对N个所述特征图进行反向处理,得到所述图像特征的目标类别;[0088]其中,N为正整数。[0089]本发明的第三方面提供一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行如上述所述的基于旋转矩形框的轻量化目标识别方法。[0090]本发明的第四方面提供一种控制装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行如上述所述的基于旋转矩形框的轻量化目标识别方法。[0091]与最接近的现有技术相比,本发明的技术方案至少具有如下有益效果:[0092]1、本发明通过改进现有的卷积神经网络,将现有的卷积神经网络的卷积层和归一化层合并,并且压缩激活层和组合层,可以减少卷积神经网络的参数,降低算法复杂度,满足了移动终端、嵌入式系统等的低运算量要求;[0093]2、本发明通过设计带有角度的旋转矩形框,可以提取输入图像中带有角度的目标,提尚了目标识别的精度。附图说明[0094]图1为本发明一种实施例基于旋转矩形框的轻量化目标识别方法的主要步骤的流程不意图;[0095]图2为本发明一种实施例构建轻量化目标识别网络模型压缩CRelu模块和组合卷积丰旲块的不意图;[0096]图3为本发明一种实施例位置敏感的旋转感兴趣区域池化层的示意图。具体实施方式[0097]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围[0098]下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。[0099]参阅附图1,图1示例性的给出了本实施例中基于旋转矩形框的轻量化目标识别方法的主要步骤。如图1所示,本实施例中包括下述步骤:[0100]步骤Sl:构建轻量化目标识别网络模型;[0101]由于传统神经网络的前部参数分布具有较强的负相关性,随着神经网络的深入,负相关性逐步减弱,以函数y=w*x为例,X表示输入,w表示四维向量,y表示输出,传统神经网络的参数w的分布趋势为W=[_q,-P,+q,+p],w中的参数成对立分布趋势,因此,随着输入增大,输出反而减小。在神经网络的前部,神经网络倾向于同时捕获正负相位的信息,但是传统神经网络的RELURectifiedLinearUnit,修正线性单元模块会抹掉负相应,造成卷积核会存在冗余,即,RELU模块会抑制传统神经网络前部中小于0的部分,导致传统神经网络的卷积核中只有一半起作用,为了不损失原有的性能,需要相应地增加卷积核的数量,造成传统神经网络的参数量和运算量增加。在本发明实施例中,可以将神经网络最开始的3-5层算作前部,最后的3-5层算作后部,其余层数作为中部。[0102]为了减少深度神经网络的参数量和运算量,本发明设计了一种轻量化目标识别网络模型,基于目标识别网络模型对输入图像进行目标识别,得到输入图像的目标类别,其中,目标识别网络模型包括目标提取模块和目标识别模块,目标提取模块基于目标提取函数构建,其中,目标提取函数可以是图像阈值化分割函数,也可以是HOGHistogramofOrientedGradient,方向梯度直方图)函数,除此之外,还可以是其他能够提取目标特征的函数,本发明在此不做限定。同样地,目标识别模块基于目标识别函数构建,其中,目标识别函数可以是BoWBagofwords,词袋)函数,也可以是Partsandstructure函数,除此之外,还可以是其他能够识别目标类别的函数,本发明在此不做限定。[0103]在本发明实施例中,在卷积神经网络的前部采用激活层,激活层可以在不损失性能的前提下,输出与RELU模块同样维度的特征,但是只使用一半数量的卷积核,这样可以减少一半的参数量。在本发明实施例中,激活层可以是CReIuconcatenatedrectifiedlinearunit,级联修正线性单元模块,还可以是其他使用更少参数量的模块,在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。为了说明的方便,在接下来的描述中,以激活层为CRelu模块为例进行说明。[0104]如图2所示,图2示例性地给出了构建轻量化目标识别网络模型压缩CRelu模块和组合卷积模块的示意图,在实际应用中,CRelu模块中带有参数的层只有最顶端的卷积层,CRelu模块的negation层和concatenation层只是对卷积的输出分别进行逻辑非和级联操作,无需学习参数,因为可以将上述两层进行合并,在卷积神经网络的前向传播过程中,可以省去网络分支以及合并过程中的空间和时间开销,提高运算速度。[0105]具体的,压缩CRelu模块的方法具体如公式⑴所示:[0106]NCX=[convX,conv-X]I[0107]其中,conv表示卷积计算函数,X表示卷积层的输入。[0108]因为卷积神经网络的前部卷积倾向于输出正负响应,但是为了减少运算量,希望减少正响应,因此将卷积核为正的正响应乘以-1,将处理结果替代原先的正响应。[0109]进一步地,在网络中部,存在许多线性操作模块,如卷积神经网络的组合层,与网络前部类似的,多个组合层会增加网络分支的空间以及合并多个组合成需要更多的时间开销。为了更方便地提取全局信息以及减少运算量和时间开销,可以合并多个组合层,即对组合层进行压缩,具体方法如公式2所示:[0111]其中,别表示3*3和1*1的卷积核的参数,k表示行索引,s表示列索引,b3别表示3*3和1*1的卷积核的偏置。[0112]具体地,可以使用并行的1*1的卷积核和3*3的卷积核对网络中部的输入进行卷积操作,然后将进行卷积操作之后的输出逐点相加,然后将相加的结果输入到Relu激活层。通过I*1的卷积核进行卷积可以降低卷积神经网络的维度,同时结合3*3的卷积核进行卷积可以获取更大的感受野,有利于获取全局信息。[0113]此外,卷积神经网络中的卷积层通过归一化层进行归一化处理,便于使用较大的学习率,加快网络的收敛,并且增加网络的泛化能力,在本发明实施例中,归一化层可以是BNBatchNormalization,批规范化层,还可以是其他能够进行归一化处理的层,为了方便说明,在接下来的描述中,以归一化层为BN层为例进行说明,在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。[0114]虽然BN层在深度学习网络训练时起到一定的积极作用,但是在深度学习网络预测时会凭空产生一些层,影响了整体的计算速度并占用了更多内存或者显存空间,为了节省神经网络的参数和加速其运行速度,可以将BN层和卷积层进行合并,具体方法如公式⑶所示:[0116]对卷积神经网络的卷积层的输出进行归一化处理,得到归一化结果,其中,X表示所述卷积层的输入,w、b分别表示所述卷积层的卷积核的参数和第一偏置,^表示所述卷积层的输出,mean、Var分别表示采用统计梯度下降法训练数据神经元的平均值和标准差,表示所述归一化结果;但是如果仅仅对卷积层的输出进行归一化处理并且将归一化的结果送入网络的下一层,则会影响到本层网络学习到的特征,因此,还需要对归一化的结果进行变化重构,具体方法如公式⑷所示:[0118]其中,γ、β分别表示比例和第二偏置。[0119]综合公式⑶和⑷,可以得到公式⑶:[0121]由上式可知,卷积层和BN层的操作可以合并成一个线性操作,合并的过程是将BN层学习到的参数合并到卷积层中,具体方法如公式6所示:[0123]通过上述操作,可以省去BN层的参数和计算时间,而卷积神经网络中包含大量的BN层,所以将BN层与卷积层进行合并可以减少大量的参数,提高运算速度。[0124]步骤S2:提取输入图像中带有角度的候选区域;[0125]在实际应用中,为了能够适应输入图像中以各种角度随机出现的目标,可以在传统候选区域提取网络的基础上,即在原有的4维锚点信息的基础上,加入角度信息,推广为包含5维信息的锚点,用以输出带有角度的候选区域,在本发明实施例中,可以通过旋转矩形框提取带有角度的候选区域。[0126]具体地,旋转矩形框为带有旋转角度的标准矩形框,可以将其定义为R=[x,y,w,h,a],其中,1,7,《,1!,分别表示旋转矩形框的中心列坐标,中心行坐标,旋转矩形框的长,旋转矩形框的宽和旋转矩形框的旋转角度,旋转矩形框的角度分布区间为-90度到90度。[0127]在实际应用中,可以将输入图像的特征图的每个点作为中心,设置多个默认的潜在候选框,即旋转矩形框,以提取输入图像中以各种角度随机出现的目标,具体地,构建多个旋转矩形框的步骤可以包括:[0128]以矩形框的长和宽均为16为例,首先将16*16的基础矩形框乘以比例系数,其中,比例系数可以为3,5,8,16,则可以得到4种矩形框,分别为48*48,(80*80,(128*128,256*256,再对得到的4种矩形框进行长宽比变换,其中,长宽比可以为(0.15,0.25,以48*48为例,进行长宽比变换后,可以得到7.2*7.2以及(12*12两种矩形框,相应地,在原有的4种矩形框的基础上进行长宽比变换后,可以得到8种矩形框,在8种矩形框的基础上进行旋转角度变换,将8种矩形框乘以9种旋转角度,则可以得到72种矩形框,其中,旋转角度可以为(-80,-60,-40,-20,0,20,40,60,80。除了上述已经给出的比例系数、长宽比变换系数以及旋转角度外,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。[0129]为了能够通过旋转矩形框准确地获取特征图中潜在的目标区域,可以对旋转矩形框进行参数训练和测试。[0130]具体地,对旋转矩形框的参数进行训练的方法如公式⑵-14所示:[0139]其中,Ulsp,u表示分类任务目标损失函数,p表示预测的类别,u为训练样本的标注类别,λ表示常数,tu表示预测的坐标位置,U表示真实的类别,V=Vx,Vy,Vw,Vh,Va表示正样本的对应标注旋转矩形框的回归目标,Vx,Vy,Vw,Vh,Va分别表示旋转矩形框回归目标的中心列坐标,中心行坐标,宽度、高度和旋转角度,t=tX,ty,tw,th,ta为预测向量,P=Px,Py,Pw,Ph,Pa表示感兴趣区域P对应的中心列坐标,中心行坐标,宽度、高度和旋转角度,G为P对应的标注样本,G=;GX,Gy,Gw,Gh,Ga表示感兴趣区域P对应的标注样本的中心列坐标,中心行坐标,宽度、高度和旋转角度,V表示真实的坐标位置。[0140]经过对旋转矩形框的参数进行训练后,可以知道特征图中正确的候选区位置。在得到已经训练好的参数后,利用训练好的参数进行测试,预测当前输入图像的候选区域,其步骤如公式15-19所示:[0146]其中_表示感兴趣区域P预测的对应旋转矩形框向量值。[0147]步骤S3:对候选区域进行目标识别;[0M8]如图3所示,图3示例性地给出了位置敏感的旋转感兴趣区域池化层的示意图,根据已经得到的卷积神经网络的特征图和感兴趣区域,计算位置敏感的旋转感兴趣区域池化层的特征映射图,其中,位置敏感是指候选区域中感兴趣区域的相对空间位置信息,以框住人的候选区域为例,对每个区域进行池化时,将候选区域分为三块,将候选区域的上部对应人的头部,候选区域的中部对应人的身体,候选区域的下部对应人的腿部,人体的三个部分即为候选区域的位置敏感区域。[0149]对目标候选区域进行目标识别的步骤包括:[0150]利用目标识别网络模型的卷积核对目标候选区域进行卷积操作,生成N个位置敏感分数图;具体地,以目标识别任务包含C类物体,外加一个背景为例,则可以得到k2C+l个通道,长宽为W、H的特征图f,其中,C为正整数,N=k2Λ2个位置敏感分数图对应描述位置的空间网格,比如:kXk=3X3,则9个位置敏感分数图编码单个物体类的{左上角,上中部,右上角,···,右下角},如果一个候选框RoI含有一个类别C的物体,将该RoI划分为k*k个区域,分别表示该物体的各个部位,假设该RoI中含有人这个物体,k=3,那么就将“人”划分为了9个子区域,top-center为人的头部,bottom-center为人的脚部,将RoI划分为k*k个区域是希望RoI在其中的每一个区域都含有该类别C的物体的各个部位,如果是人,那么RoI的top-center区域就应该含有人的头部。而当所有子区域都含有各自对应的物体的相应部位后,分类器可以将该RoI判断为该类别。物体的各个部位和RoI的子区域是一一映射的对应关系。[0151]将N个位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;[0152]对带有角度的感兴趣区域进行缩放,得到特征图f的尺度,具体地,可以采用下采样116,然后对缩放后的旋转矩形框以水平方向的旋转角度进行k2的网格划分,再对每个网格进行平均池化操作,最终得到C+1通道的k2的特征图。得到区域的平均值后,通过误差反向梯度传播算法对N个特征图进行反向处理,得到图像特征的目标类别。[0153]本发明的另一方面提供一种基于旋转矩形框的轻量化目标识别装置,包括:[0154]目标识别网络模型,目标识别网络模型配置为对输入图像进行目标识别,得到输入图像的目标类别;[0155]其中,[0156]目标识别网络模型基于卷积神经网络构建,目标识别网络模型包括目标提取模块和目标识别模块;[0157]目标提取模块基于预先构建的旋转矩形框提取输入图像的候选区域,基于预先构建的轻量化神经网络提取输入图像的特征图;[0158]目标识别模块对候选区域与特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到输入图像的目标类别。[0159]在上述方案的优选技术方案中,目标提取模块包括多个旋转矩形框,多个旋转矩形框配置为提取输入图像的图像特征。[0160]在上述方案的优选技术方案中,目标提取模块还包括旋转矩形框构建单元,旋转矩形框构建单元配置为:[0161]选取基础矩形框,将基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;[0162]对第一类矩形框进行长宽比变化,得到第二类矩形框;[0163]将第二类矩形框的长宽分别乘以旋转角度,得到多个旋转矩形框。[0164]在上述方案的优选技术方案中,目标提取模块还包括回归预测单元,回归预测单元配置为:[0165]对由多个输入图像的特征图构成的训练样本集分别进行候选区域分类和坐标回归分析,得到目标提取模块的训练参数,其方法如公式7-14所示;[0166]基于目标提取模块的训练参数,预测训练样本集的候选区域,其方法如公式(15-19所示;[0167]在上述方案的优选技术方案中,目标识别模块包括第一压缩单元和第二压缩单元,第一压缩单元配置为压缩激活层,第二压缩单元配置为压缩组合层;[0168]第一压缩单元压缩激活层的步骤包括:将激活层的negation层和concatenation层进行合并,其方法如公式1所示;[0169]第二压缩单元压缩组合层的步骤包括:将组合层中1*1卷积核的参数与3*3卷积核的参数相加,其方法如公式2所示;[0170]在上述方案的优选技术方案中,目标识别模块包括卷积单元、网格划分单元、池化单元以及目标识别单元;[0171]卷积单元配置为利用目标识别模块的卷积核对图像特征进行卷积操作,生成N个位置敏感分数图;[0172]网格划分单元配置为将N个位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;[0173]池化单元配置为将进行网格划分后每个网格内的位置敏感分数图进行平均池化处理,得到N个特征图;[0174]目标识别单元配置为通过误差反向梯度传播算法对N个特征图进行反向处理,得到图像特征的目标类别;[0175]其中,N为正整数。[0176]所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明装置实施例的具体工作过程以及相关说明,可以参考前述方法实施例的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。[0177]结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器RAM、内存、只读存储器ROM、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。[0178]本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。[0179]至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

权利要求:1.一种基于旋转矩形框的轻量化目标识别方法,其特征在于包括:基于预先构建的目标识别网络模型对输入图像进行目标识别,得到所述输入图像的目标类别;其中,所述目标识别网络模型基于卷积神经网络构建,所述目标识别网络模型包括目标提取丰旲块和目标识别t旲块;所述目标提取模块基于预先构建的旋转矩形框提取所述输入图像的候选区域,基于预先构建的轻量化神经网络提取所述输入图像的特征图;所述目标识别模块对所述候选区域与所述特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到所述输入图像的目标类别。2.根据权利要求1所述的方法,其特征在于,所述目标提取模块包括多个旋转矩形框,“提取所述输入图像的特征图”的步骤包括:通过多个所述旋转矩形框提取所述输入图像的特征图。3.根据权利要求2所述的方法,其特征在于,在“提取所述输入图像的特征图”之前,该方法还包括构建多个所述旋转矩形框,其步骤包括:选取基础矩形框,将所述基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;对所述第一类矩形框进行长宽比变化,得到第二类矩形框;将所述第二类矩形框的长宽分别乘以旋转角度,得到多个所述旋转矩形框。4.根据权利要求1-3中任一项所述的方法,其特征在于,在“提取所述输入图像的特征图”之前,该方法还包括对所述旋转矩形框进行回归预测,其步骤包括:按如下式所示的方法对由多个所述输入图像的特征图构成的训练样本集分别进行候选区域分类和坐标回归分析,得到训练参数:基于所述训练参数,按如下式所示的方法预测所述训练样本集的候选区域:其中,Ulsp,u表示分类任务目标损失函数,P表示预测的类别,u为训练样本的标注类别,λ表示常数,tu表示预测的坐标位置,U表示真实的类别,V=Vx,Vy,Vw,Vh,Va表示正样本的对应标注旋转矩形框的回归目标,VX,Vy,Vw,Vh,Va分别表示旋转矩形框回归目标的中心列坐标,中心行坐标,宽度、高度和旋转角度,t=tx,ty,tw,th,ta为预测向量,P=px,py,pw,Ph,Pa表示感兴趣区域P对应的中心列坐标,中心行坐标,宽度、高度和旋转角度,G为P对应的标注样本,G=Gx,Gy,Gw,Gh,Ga表示感兴趣区域P对应的标注样本的中心列坐标,中心行坐标,宽度、高度和旋转角度,V表示真实的坐标位置,表示感兴趣区域P预测的对应旋转矩形框向量值。5.根据权利要求4所述的方法,其特征在于,所述目标提取模块还用于压缩所述卷积神经网络的激活层和组合层,其步骤包括:压缩所述激活层的步骤包括:按如下式所示的方法将所述激活层的negation层和concatenationjljjitT'n'^f1:NCX=[convX,conv-X]其中,conv表示卷积计算函数;压缩所述组合层的步骤包括:按如下式所示的方法将所述组合层中1*1卷积核的参数与3*3卷积核的参数相加:其中,w3«、wm分别表示3*3和1Φ1的卷积核的参数,k表示行索引,s表示列索引,b3«、biμ分别表示3*3和1*1的卷积核的偏置。6.根据权利要求5所述的方法,其特征在于,所述目标识别模块识别所述输入图像的目标类别的步骤包括:利用所述目标识别模块的卷积核对所述图像特征进行卷积操作,生成N个位置敏感分数图;将N个所述位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;将进行网格划分后每个网格内的位置敏感分数图进行平均池化处理,得到N个特征图;通过误差反向梯度传播算法对N个所述特征图进行反向处理,得到所述图像特征的目标类别;其中,N为正整数。7.—种基于旋转矩形框的轻量化目标识别装置,其特征在于包括:目标识别网络模型,所述目标识别网络模型配置为对输入图像进行目标识别,得到所述输入图像的目标类别;其中,所述目标识别网络模型基于卷积神经网络构建,所述目标识别网络模型包括目标提取丰旲块和目标识别t旲块;所述目标提取模块基于预先构建的旋转矩形框提取所述输入图像的候选区域,基于预先构建的轻量化神经网络提取所述输入图像的特征图;所述目标识别模块对所述候选区域与所述特征图进行特征提取,将提取到的特征进行坐标回归和目标分类,得到所述输入图像的目标类别。8.根据权利要求7所述的装置,其特征在于,所述目标提取模块包括多个旋转矩形框,多个所述旋转矩形框配置为提取所述输入图像的图像特征。9.根据权利要求8所述的装置,其特征在于,所述目标提取模块还包括旋转矩形框构建单元,所述旋转矩形框构建单元配置为:选取基础矩形框,将所述基础矩形框的长宽分别乘以比例系数,得到第一类矩形框;对所述第一类矩形框进行长宽比变化,得到第二类矩形框;将所述第二类矩形框的长宽分别乘以旋转角度,得到多个所述旋转矩形框。10.权利要求9所述的装置,其特征在于,所述目标提取模块还包括回归预测单元,所述回归预测单元配置为:按下式所示的方法对由多个所述输入图像的特征图构成的训练样本集分别进行候选区域分类和坐标回归分析,得到训练参数:基于所述训练参数,按下式所示的方法预测所述训练样本集的候选区域:其中,Ulsp,u表示分类任务目标损失函数,p表示预测的类别,u为训练样本的标注类别,λ表示常数,tu表示预测的坐标位置,U表示真实的类别,V=Vx,Vy,Vw,Vh,Va表示正样本的对应标注旋转矩形框的回归目标,VX,Vy,Vw,Vh,Va分别表示旋转矩形框回归目标的中心列坐标,中心行坐标,宽度、高度和旋转角度,t=tx,ty,tw,th,ta为预测向量,P=px,py,pw,Ph,Pa表示感兴趣区域P对应的中心列坐标,中心行坐标,宽度、高度和旋转角度,G为P对应的标注样本,G=Gx,Gy,Gw,Gh,Ga表示感兴趣区域P对应的标注样本的中心列坐标,中心行坐标,宽度、高度和旋转角度,V表示真实的坐标位置,表示感兴趣区域P预测的对应旋转矩形框向量值。11.根据权利要求10所述的装置,其特征在于,所述目标识别模块包括第一压缩单元和第二压缩单元,所述第一压缩单元配置为压缩所述卷积神经网络的激活层,所述第二压缩单元配置为压缩所述卷积神经网络的组合层;所述第一压缩单元压缩所述激活层的步骤包括:按下式所示的方法将所述激活层的negationM^lconcatenationMiifi^*^1:NCX=[convX,conv-X]其中,conv表示卷积计算函数;所述第二压缩单元压缩所述组合层的步骤包括:按下式所示的方法将所述组合层中1*1卷积核的参数与3*3卷积核的参数相加:其中,w3«、wm分别表示3*3和1Φ1的卷积核的参数,k表示行索引,s表示列索引,b3«、biμ分别表示3*3和1*1的卷积核的偏置。12.根据权利要求11所述的装置,其特征在于,所述目标识别模块包括卷积单元、网格划分单元、池化单元以及目标识别单元;所述卷积单元配置为利用所述目标识别模块的卷积核对所述图像特征进行卷积操作,生成N个位置敏感分数图;所述网格划分单元配置为将N个所述位置敏感分数图进行缩放,并对缩放后的位置敏感分数图进行网格划分;所述池化单元配置为将进行网格划分后每个网格内的位置敏感分数图进行平均池化处理,得到N个特征图;所述目标识别单元配置为通过误差反向梯度传播算法对N个所述特征图进行反向处理,得到所述图像特征的目标类别;其中,N为正整数。

百度查询: 中国科学院自动化研究所 基于旋转矩形框的轻量化目标识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。