买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于交替反卷积与卷积的特征图增强的网络结构优化方法_上海交通大学_201810212701.X 

申请/专利权人:上海交通大学

申请日:2018-03-15

公开(公告)日:2021-07-16

公开(公告)号:CN108537824B

主分类号:G06T7/246(20170101)

分类号:G06T7/246(20170101);G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.16#授权;2018.10.16#实质审查的生效;2018.09.14#公开

摘要:一种基于交替反卷积与卷积的特征图增强的图像检测优化方法,通过交替反卷积与卷积进行特征图增强,使用卷积神经网络中不同的层,预测不同尺度的目标,并重新构建用来进行目标分类与回归的预测层,最后经网络训练后得到目标检测器进行图像检测并得到优化后的目标框。通过本发明改进的网络结构,可以很容易移植到主流的目标检测网络架构中,很大程度增强特征,且保留图像中小目标特征,促进检测效果,即使在低分辨率的图像输入条件下,依然取得优异的效果。

主权项:1.一种基于交替反卷积与卷积的特征图增强的图像检测优化方法,其特征在于,通过交替反卷积与卷积进行特征图增强,使用卷积神经网络中不同的层,预测不同尺度的目标,并重新构建用来进行目标分类与回归的预测层,最后经网络训练后得到目标检测器进行图像检测并得到优化后的目标框;所述的特征图增强,即通过交替反卷积和卷积结构实现,具体为:当第k层特征维度为N×M×C,一支路经过正常的VGG-16结构的三次连续的卷积后,特征维度变为然后再进行反卷积操作,使其特征维度变为N×M×C';另一支路两次交替进行反卷积与卷积操作,第一次交替反卷积与卷积操作设置特征通道数为第二次反卷积与卷积操作设置特征通道数为得到的特征维度为最后两个支路的特征融合,得到的特征维度为再用其来进行目标的分类与回归。

全文数据:基于交替反卷积与卷积的特征图増强的网络结构优化方法技术领域[0001]本发明涉及的是一种目标检测领域的技术,具体是一种基于交替反卷积与卷积的特征图增强的图像检测优化方法。背景技术[0002]现有目标检测算法中最为著名的DPM算法,通过设计不同的特征提取模板,然后融合这些特征,对目标进行传统分类与回归。然而,近年来随着大数据和计算能力的大幅提升,深度学习得到高速发展,其在计算机视觉上取得的效果大幅优于传统的算法。深度学习模型能够自动地学习不同抽象特征,避免了传统的人工设计特征的繁杂。[0003]在深度学习领域,基于卷积神经网络的目标检测算法层出不穷。从最早的R-CNN到后来的FastR-CNN、FasterR_CNN、Y0L0、SSD等一系列改进算法,目标检测的精度和速度也向前迈进了一大步。但目标检测算法仍然有不足之处像R-CNN系列,分为两步检测计算量大;而YOLO、SSD虽然一步检测速度较快,但是精度还有待进一步提高。目前主流检测器依然对于小目标以及目标遮挡情况难以检测,仍有提高空间。大多数检测器对于小目标、目标遮挡,未能检测或不够准确,主要是因为用来回归目标框及分类的特征还不够丰富。丰富的特征必须对于不同尺度的目标,特征的分辨率需足够合适并且应该既包含足够抽象的特征,又应包含一些上下文场景特征。发明内容[0004]本发明针对现有技术存在的上述不足,提出一种基于交替反卷积与卷积的特征图增强的图像检测优化方法,通过在主流的网络结构中某一层分支出一个交替反卷积与卷积的残差模块,用来提取局部特征,与当前层池化后的下一层反卷积后的全局特征进行融合,使融合后的丰富特征既包含了局部特征,又包含了全局特征,同时扩大了特征图的分辨率,有益于保留图像中细节特征。通过本发明改进的网络结构,可以很容易移植到主流的目标检测网络架构中,很大程度增强特征,且保留图像中小目标特征,促进检测效果,即使在低分辨率的图像输入条件下,依然取得优异的效果。[0005]本发明是通过以下技术方案实现的:[0006]本发明涉及一种基于交替反卷积与卷积的特征图增强的图像检测优化方法,通过交替反卷积与卷积进行特征图增强,使用卷积神经网络中不同的层,预测不同尺度的目标,并重新构建用来进行目标分类与回归的预测层,最后经网络训练后得到目标检测器进行图像检测并得到优化后的目标框。[0007]所述的特征图增强,即通过交替反卷积和卷积结构实现,具体为:当第k层特征维度为NXMXC,一支路经过正常的VGG-16结构的三次连续的卷积后,特征维度变为然后再进行反卷积操作,使其特征维度变为NXMXCS另一支路两次交替进行反卷积与卷积操作,第一次交替反卷积与卷积操作设置特征通道数为,第二次反卷积与卷积操作设置特征通道数为,得到的特征维度为;最后两个支路的特征融合,得到的特征维度为,再用其来进行目标的分类与回归。[0008]本发明中的特征图增强网络结构,采用基于VGG-16网络结构的SSDsingleshotmultiboxdetector目标检测器作为基础,将其嵌入本发明的特征图增强结构。[0009]优选地,为了使网络连贯且数据流通更好,在下一层的特征构造过程中,在之前的特征维度为NXMXC的反卷积层后面添加了一个过渡卷积层并加上交替反卷积与卷积操作,再一次按照之前的结构操作,构成8字形结构;整个特征构造过程中针对不同的层进行上述结构操作,使得整体结构构成类双螺旋结构,充分关联不同层的特征,并保持特征足够大的分辨率。技术效果[0010]与现有技术相比,本发明在输入的图像分辨率较低的情况下,依然保留特征的分辨率需足够合适,来针对不同尺寸的目标,显著促进小目标的检测;本发明通过增强特征,使其既包含足够抽象的特征,又应包含一些上下文场景特征,提高目标框的精准度。本发明可以很容易移植到主流的目标检测网络架构中,很大程度增强特征,使特征更加丰富,使目标检测效果更加健壮、精准。附图说明[0011]图1为本发明交替反卷积与卷积特征图增强结构示意图;[0012]图2为本发明连续两个交替反卷积与卷积特征图增强结构构成类“8”形结构;[0013]图3为本发明整个网络训练结构;[0014]图4为本发明整个网络测试流程;[0015]图5为本发明实施例效果图。具体实施方式[0016]如图1所示,本实施例通过交替反卷积与卷积进行特征图增强,使用卷积神经网络中不同的层,预测不同尺度的目标,并重新构建用来进行目标分类与回归的预测层,最后经网络训练后得到目标检测器进行图像检测并得到优化后的目标框。[0017]本实施例中的卷积神经网络的训练和测试数据,采用但不限于KITTI数据库实现,该数据库包括:汽车、行人、骑自行车的人等。按照SSDSingleShotMultiBoxDetector目标检测器里的方法,对训练数据做了数据增广操作,增加网络模型对不同尺度的目标的泛化能力,提升目标检测效果。[0018]所述的增广操作,采用但不限于LiuW,AnguelovD,ErhanD,etal·在《SSD:单次多盒目标检测器》(SSD:SingleShotMultiBoxDetector[C]EuropeanConferenceonComputerVision.Springer,Cham,2016:21-37.中提出的方法实现。[0019]所述的特征图增强,当第n层的特征·其中:为特征经过某一层的非线性变换;增加交替反卷积和卷积增强后的第η层的特征为:其中:,表示通过交替反卷积和卷积等非线性操作,增强后的特征包括两部分,一部分为原始的特征,另一部分为新增添的特Ifl表示反卷积操作,为了保证特征图有适当的分辨率;κ表示从第k层特征开始进行目标分类与回归。[0020]所述的构建用来进行目标分类与回归的预测层,具体是指:通过Conv3层与Conv4层构建Conv3v4层、通过Conv5层与fc7层构建Conv5fc7层、通过fc7层与Conv6层构建fc7Conv6层,越底层的层用于预测越大的目标,S卩选取Conv3v4层、Conv5fc7层、fc7Conv6层、Conv7层、Conv8层、Conv9层、P00I6用来回归目标框与分类。[0021]优选考虑到网络效率,31^7层、3〇11¥8层、]〇11¥9层、?〇〇16选择性地不进行特征加强。[0022]所述的预测层中的默认框尺度为[0023]优选为了预测更小目标,本实施例中设置5_=0.1,5_=0.9,其中1^表示第几个预测层,m表示预测层的总个数。[0024]所述的网络训练,采用但不限于LiuW,AnguelovD,ErhanD,etal·在《SSD:单次多盒目标检测器》(SSD:SingleShotMultiBoxDetector[C]EuropeanConferenceonComputerVision.Springer,Cham,2016:21-37.中提出的方法实现;该网络训练采用的损失函数包括定位损失和分类损失,具体为I:,其中:N是与真实框相匹配的默认框的个数,Liocx,l,g是FastR-CNN中SmoothLILoss^Eboundingboxes的中心位置,以及width、height;LcOnfx,c是SoftmaxLoss,输入为每一类的置信度;权重项α,设置为1。[0025]所述的图像检测是指:网络训练完成后输入任意一张图片,然后提取Conv3v4层、3]1¥5;1^7层、;1^7]〇11¥6层、311¥7层、]〇11¥8层、]〇11¥9层、?0〇16层的特征,分别预测不同尺度的目标框,然后进过非极大抑制NMS操作得当最终的目标框。[0026]所述的非极大抑制操作,米用NeubeckA,GoolLV.在EfficientNon-MaximumSuppression[C]InternationalConferenceonPatternRecognition.IEEEComputerSociety,2006:850-855·中提出的方法。[0027]如图4所示,为本实施例涉及的基于交替反卷积与卷积的特征图增强的改进网络结构,包括:Conv4_3、Conv5_3、Fc7特征交替反卷积和卷积特征加强模块、第七至第十卷积层以及非极大抑制层,其中:Conv4_3、Conv5_3、Fc7、Conv6_2卷积层分别通过交替反卷积和卷积特征加强模块相连并传输特征图信息,Conv7_2、Conv8_2、Conv9_2、Pool6之间依次相连并传输特征信息,最后不同层的特征进过卷积直接回归目标的位置和类别,回归目标框的位置的卷积层与非极大抑制层相连并过滤掉无关目标框信息。[0028]本实施例选取某摄像头监控视频,对每一帧图像都进行车辆和行人进行检测,具体包含以下步骤:[0029]第一步:图像调整大小:输入任意大小的图像到训练好的目标检测网络中,首先都将图像大小调整为512X512。[0030]第二步:特征提取与目标框回归和分类:分别提取Conv3v4层、Conv5fc7层、fc7Conv6层、Conv7层、Conv8层、Conv9层、Pool6层的特征,分别用一系列卷积操作直接进行目标框回归和分类。[0031]对于一个大小为m*n、c通道的特征层,使用3*3的卷积核进行预测,在某个位置上预测出一个值,该值可以是某一类别的得分,也可以是相对于默认框的偏移量,并且在图像的每个位置都将产生一个值。[0032]第三步:输出检测框:由于预测框许多框之间交叉,预测框需使用匪S来选取哪些在一定领域内置信度最高的框,同时抑制置信度低的框。本实施例中设置NMS的置信度阈值为0.45,同时设置每个框的置信度阈值需大于0.24,最后输出每个目标的在原图中的左上角和右上角坐标以及其置信度,其效果如图5所示。[0033]上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

权利要求:1.一种基于交替反卷积与卷积的特征图增强的图像检测优化方法,其特征在于,通过交替反卷积与卷积进行特征图增强,使用卷积神经网络中不同的层,预测不同尺度的目标,并重新构建用来进行目标分类与回归的预测层,最后经网络训练后得到目标检测器进行图像检测并得到优化后的目标框。2.根据权利要求1所述的方法,其特征是,所述的特征图增强,即通过交替反卷积和卷积结构实现,具体为:当第k层特征维度为NXMXC,一支路经过正常的VGG-16结构的三次连续的卷积后,特征维度变为.然后再进行反卷积操作,使其特征维度变为NXMXf;另一支路两次交替进行反卷积与卷积操作,第一次交替反卷积与卷积操作设置特征通道数^,第二次反卷积与卷积操作设置特征通道数为得到的特征维度为:;最后两个支路的特征融合,得到的特征维度戈再用其来进行目标的分类与回归。3.根据权利要求2所述的方法,其特征是,所述的特征图增强网络结构,采用基于VGG-16网络结构的SSD目标检测器作为基础,将其嵌入本发明的特征图增强结构。4.根据权利要求2所述的方法,其特征是,所述的特征图增强,当第η层的特征U其中)为特征经过某一层的非线性变换;增加交替反卷积和卷积增强后的第η层的特征为,其中表示通过交替反卷积和卷积等非线性操作,增强后的特征包括两部分,一部分为原始的特征;,列,另一部分为新增添的特征表示反卷积操作,为了保证特征图有适当的分辨率;K表示从第k层特征开始进行目标分类与回归。5.根据权利要求1所述的方法,其特征是,为了使网络连贯且数据流通更好,在下一层的特征构造过程中,在之前的特征维度为NXMXC的反卷积层后面添加了一个过渡卷积层并加上交替反卷积与卷积操作,再一次按照之前的结构操作,构成8字形结构;整个特征构造过程中针对不同的层进行上述结构操作,使得整体结构构成类双螺旋结构,充分关联不同层的特征,并保持特征足够大的分辨率。6.根据权利要求1所述的方法,其特征是,所述的构建用来进行目标分类与回归的预测层,具体是指:通过Conv3层与Conv4层构建Conv3v4层、通过Conv5层与fc7层构建Conv5fc7层、通过fc7层与Conv6层构建fc7Conv6层,越底层的层用于预测越大的目标,S卩选取Conv3v4层、Conv5fc7层、fc7Conv6层、Conv7层、Conv8层、Conv9层、Pool6用来回归目标框与分类。7.根据权利要求1或6所述的方法,其特征是,所述的预测层中的默认框尺度为:,其中Smin=0.1,Smax=0.9,其中k表示第几个预测层,m表示预测层的总个数。8.根据权利要求1所述的方法,其特征是,所述的图像检测是指:网络训练完成后输入任意一张图片,然后提取Conv3v4层、Conv5fc7层、fc7Conv6层、Conv7层、Conv8层、Conv9层、p〇〇i6层的特征,分别预测不同尺度的目标框,然后进过非极大抑制操作得当最终的目标框。9.一种基于交替反卷积与卷积的特征图增强的改进网络结构,其特征在于,包括:Conv4_3、Conv5_3、Fc7特征交替反卷积和卷积特征加强模块、第七至第十卷积层以及非极大抑制层,其中:Conv4_3、Conv5_3、Fc7、Conv6_2卷积层分别通过交替反卷积和卷积特征加强模块相连并传输特征图信息,:〇1^7_2、:〇1^8_2、:〇1^9_2、?〇〇16之间依次相连并传输特征信息,最后不同层的特征进过卷积直接回归目标的位置和类别,回归目标框的位置的卷积层与非极大抑制层相连并过滤掉无关目标框信息。

百度查询: 上海交通大学 基于交替反卷积与卷积的特征图增强的网络结构优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。