买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】计算高效的多模式视频语义分割方法_东南大学_201811622581.7 

申请/专利权人:东南大学

申请日:2018-12-28

公开(公告)日:2023-05-23

公开(公告)号:CN109753913B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/764

优先权:

专利状态码:有效-授权

法律状态:2023.05.23#授权;2019.06.07#实质审查的生效;2019.05.14#公开

摘要:本发明公开了一种计算高效的多模式视频语义分割的方法。该方法对输入的每一个视频帧有三种不同的处理模式。实现模块分别为:语义分割模块、光流模块和混合模块。并通过模式判别模块自动决定输入的每一个视频帧进行不同处理模式。该方法利用了视频帧内的位置信息和帧间的光流信息,将语义分割与光流在空间和时间上进行了结合。既保留了语义分割模块的精细结果,又因为结合光流大大提升了运行速度。相对于运用较广泛的deeplab,其运行速度为2fps,该方法在cityscapes数据集上实现了运行速度可达12fps的快速语义分割。本方法与现有方法相比更好的获得了精度与处理速度的折中。

主权项:1.计算高效的多模式视频语义分割方法,所述方法使用了三种不同的模式对输入的视频帧进行处理:语义分割模块、光流模块和混合模块,该方法通过模式判别针对每一个视频帧特点选择不同的模块处理,通过语义分割和光流信息在时间或空间的结合,从而得到精度和处理速度折中的结果,所述方法的具体步骤如下:步骤1:构建语义分割网络训练样本集、验证样本集和测试样本集;步骤2:采用残差网络结构和空洞卷积,搭建输出像素级的全卷积网络:语义分割模块;以全连接神经网络为基础,采用了残差结构和空洞卷积,全连接神经网络是指去掉了网络中的全连接层,替换为卷积层,残差结构是为了解决网络过深而出现的性能下降的问题;步骤3:对语义分割模块进行训练、测试和验证,得到验证后的语义分割模块;步骤4:构建光流估计的深度学习数据集;光流模块流程为:将关键帧和当前帧叠加在一起,通过卷积层提取特征,然后再经过放大网络对图片进行反卷积,得到和输入相同分辨率的光流预测图,然后将得到的光流预测图与关键帧的特征图进行融合得到对应时刻帧的特征图;步骤5:构建基于特征提取的深度学习光流模块,该模块包括卷积提取特征网络结构以及放大部分网络结构;步骤6:利用数据集对光流模块进行训练,得到训练完成的光流模块;步骤7:构建混合模块:将输入帧的中间的区域进行语义分割处理,将动态变化强烈的区域分割出来进行语义分割,其余区域利用光流信息和关键帧进行预测;步骤8:构建模式判别模块:将视频帧的每二十帧的第一帧设定为关键帧,每十帧第一帧设定为半关键帧,若输入视频帧为关键帧,选择语义分割模块进行处理;若输入视频帧为半关键帧,选择混合模块进行处理;其余帧作为当前帧送入光流模块;具体方法为:将当前视频帧通过光流模块得到的光流信息的位移绝对值的加权平均设为反馈参数,针对此参数设定阈值,若反馈参数超过了设定阈值,强制设定下一帧为关键帧,并以此关键帧为新一轮的第一帧按照每二十帧为一次重新划分;即将输入的视频帧进行不同模式的选择,把输入的视频帧按照每二十帧划分一次,二十帧的第一帧设定为关键帧,二十帧的第十帧设定为半关键帧,将判定为关键帧的视频帧选择语义分割模块进行细致的处理,并记录语义分割的结果;将判定为半关键帧的视频帧选择混合模块进行针对关键区域的细致处理,并记录语义分割的结果;将其余帧选择光流模块,结合光流信息与关键帧和半关键帧的语义信息进行快速的处理;步骤9:利用光流模块得到的光流信息判断与关键帧或半关键帧的差异,若差异大过给定阈值,强制设定下一帧为关键帧。

全文数据:计算高效的多模式视频语义分割方法技术领域本发明涉及计算机视觉技术领域,特别是涉及计算高效的多模式视频语义分割方法。背景技术语义分割是目前计算机视觉领域的关键问题之一,其目标是在像素级别上对目标进行分类,是一种应用于场景理解的任务。场景理解作为计算机视觉的核心技术,其重要性越来越突出,因为现实中越来越多的应用场景需要从影像中推理出相关的知识或语义,需要精确且高效的分割技术。这些应用包括自动驾驶、人机交互、计算摄影学、图像搜索引擎、增强现实等。语义分割并不是一个孤立的领域,而是计算机推理程度从粗略到精细发展的自然步骤,是在目标检测或分类等基础上继续发展的结果。语义分割实现细粒度的推测,对图像而言,即做出密集的推断来给出每个像素的标签。传统的图像分割是非监督式学习问题,只是将相似的像素划分到一起,不必带有类别的训练样本。传统的计算机视觉和机器学习技术,已经可以解决场景理解的问题,但还是无法准确地分割出目标。而近年研究的图像语义分割是一种监督学习问题,要利用带有类别的训练样本进行目标识别。图像语义分割结合了分割与目标识别这两种技术,能够将图像分割成具有高级语义内容的区域。例如,通过语义分割,一幅图像能够分割成分别具有“车辆”、“行人”、“树”和“道路”四种不同语义的区域。目前,最成功最先进的语义分割深度学习技术都源于全卷积神经网络,这种方法是利用现有的卷积神经网络作为强大的视觉模型,学习特征的层次结构。全卷积神经网络通过将全连接层替换为卷积层来实现全卷积,同时输出不再是分类得分而是空间特征图。这些特征图经过上采样也叫反卷积,以产生稠密的像素级别的标记输出。这项工作是具有里程碑意义的,全卷积神经网络展示了如何针对语义分割的问题进行端到端的训练,能够有效学习如何对任意大小的输入进行稠密预测,是应用于语义分割深的度学习方法的基石。全卷积神经网络解决了实现语义分割中两个问题,第一个是全连接层的问题。其输入为固定大小的图像块。现有的解决方法是:将用于目标识别的卷积神经网络最后的全连接层换为卷积层。实现了任意尺寸图像的输入。实现了对图像每个像素的预测。但这种方法的结果不够精细,对图像中的细节不敏感,忽略了像素之间的关系,缺乏空间一致性。全卷积神经网络解决的另一个问题是池化层的问题。针对这个问题现阶段有两种不同结构的解决方法。一种是编码器-解码器结构。其中,编码器使用池化层逐渐缩减输入数据的空间维度,而解码器是通过反卷积等网络层逐步恢复目标的细节和相应的空间维度。卷积神经网络通过一系列的卷积层和池化层提取像素特征、增大感受野,之后再通过一些列反卷积来对图片进行放大,实现对特征图的各个像素的分类。但是对图片进行先减小再放大,一定程度上损失了图片的空间信息。另一种结构是空洞卷积结构。空洞卷积也叫带孔卷积。就是在之前的卷积核的像素之间插入空白像素。使用带孔卷积核进行卷积操作可以在不减小图片尺寸的情况下增大图片的感受野。减小图片空间信息的损失。达到更精细的分类效果。但是这种方法的运算量较多,导致运算效率较低。现有的语义分割方法已经达到了较高精度的分割水平。但是对于自动驾驶等需要实时性较高的应用来说,深度卷积网络的运算速率还是不够的。虽然针对单个图像的语义分割技术已经取得了极大的发展,但是,当处理图像序列时,许多系统还是依赖逐帧对每一张图片以相同算法进行分割的方法。这种方法虽然有效,但是计算成本巨大,并且完全忽略了对分割可能有帮助的时间连续性及帧之间的相关性。因此,对于视频数据采用与单个图像不同的处理方法,利用视频序列之间的相关性减少计算量同时保持准确性,是目前语义分割发展的一个重要且前沿的方向。发明内容为了解决上述存在的问题,本发明提供计算高效的多模式视频语义分割方法,本发明不仅仅是针对单个图像的语义分割,而是考虑到视频序列之间的相关性,主要解决语义分割中的运算速度的问题。在很多应用场景下,准确率是重要的,但是能够达到或接近处理常见的摄像机帧率的输入速度也是很关键的,尤其在自动驾驶辅助系统中,对实时处理的要求较高,为达此目的,本发明提供一种计算高效的多模式视频语义分割方法,所述方法使用了三种不同的模式对输入的视频帧进行处理:语义分割模块、光流模块和混合模块,其特征在于,该方法通过模式判别针对每一个视频帧特点选择不同的模块处理,通过语义分割和光流信息在时间或空间的结合,从而得到精度和处理速度折中的结果,所述方法的具体步骤如下:步骤1:构建语义分割网络训练样本集、验证样本集和测试样本集;步骤2:采用残差网络结构和空洞卷积,搭建输出像素级的全卷积网络:语义分割模块;步骤3:对语义分割模块进行训练、测试和验证,得到验证后的语义分割模块;步骤4:构建光流估计的深度学习数据集;步骤5:构建基于特征提取的深度学习光流模块,该模块包括卷积提取特征网络结构以及放大部分网络结构;步骤6:利用数据集对光流模块进行训练,得到训练完成的光流模块。;步骤7:构建混合模块:将输入视频帧进行区域分割,将动态变化强烈的区域分割出来进行语义分割,其余区域利用光流信息和关键帧进行预测;步骤8:构建模式判别模块:将视频帧的每二十帧的第一帧设定为关键帧,每十帧第一帧设定为半关键帧,若输入视频帧为关键帧,选择语义分割模块进行处理;若输入视频帧为半关键帧,选择混合模块进行处理;其余帧作为当前帧送入光流模块;步骤9:利用光流模块得到的光流信息判断与关键帧或半关键帧的差异,若差异大过给定阈值,强制设定下一帧为关键帧。作为本发明进一步改进,所述步骤2中以全连接神经网络为基础,采用了残差结构和空洞卷积,全连接神经网络是指去掉了网络中的全连接层,替换为卷积层,残差结构是为了解决网络过深而出现的性能下降的问题。作为本发明进一步改进,所述步骤4中的光流模块流程大概为:将关键帧和当前帧叠加在一起,通过卷积层提取特征。然后再经过放大网络对图片进行反卷积,得到和输入相同分辨率的光流预测图,然后将得到的光流预测图与关键帧的特征图进行融合得到该时刻帧的特征图。作为本发明进一步改进,所述步骤6中的混合模块:将输入帧的中间的区域进行语义分割处理,其余区域结合光流信息和关键帧进行预测。作为本发明进一步改进,所述步骤7的模式判别模块的具体方法为:将输入的视频帧进行不同模式的选择,把输入的视频帧按照每二十帧划分一次,二十帧的第一帧设定为关键帧,二十帧的第十帧设定为半关键帧,将判定为关键帧的视频帧选择语义分割模块进行细致的处理,并记录语义分割的结果;将判定为半关键帧的视频帧选择混合模块进行针对关键区域的细致处理,并记录语义分割的结果;将其余帧选择光流模块,结合光流信息与关键帧和半关键帧的语义信息进行快速的处理。作为本发明进一步改进,所述步骤8的具体方法为:将当前视频帧通过光流模块得到的光流信息的位移绝对值的加权平均设为反馈参数,针对此参数设定阈值,若反馈参数超过了设定阈值,强制设定下一帧为关键帧,并以此关键帧为新一轮的第一帧按照每二十帧为一次重新划分。本发明计算高效的多模式视频语义分割方法,,对输入的视频帧采取不同的处理模式,与现有语义分割方法相比,以少量精度上的牺牲,换取了速度上成倍的提升。目前较为主流的语义分割方法的处理速度在2fps左右,本发明的处理速度达到了12fps。附图说明图1是本发明的实现流程框图;图2是本发明算法网络框架;图3是本发明语义分割模块网络框图;图4是本发明残差网络结构图;图5是本发明带孔卷积示意图;图6是本发明光流模块网络示意图;图7是本发明视频帧分割示意图;图8是本发明的进行语义分割的原图;图9是本发明的实现语义分割的结果图。具体实施方式下面结合附图与具体实施方式对本发明作进一步详细描述:本发明提供计算高效的多模式视频语义分割方法,本发明不仅仅是针对单个图像的语义分割,而是考虑到视频序列之间的相关性,主要解决语义分割中的运算速度的问题。在很多应用场景下,准确率是重要的,但是能够达到或接近处理常见的摄像机帧率的输入速度也是很关键的,尤其在自动驾驶辅助系统中,对实时处理的要求较高。图1给出本发明实现流程框图,包括各个子模块训练和实现的过程;图2给出本发明算法网络框架:视频帧首先通过模式判别模块,选择模式,然后送入相应模块进行处理得到语义分割结果参考图1,对图3的语义分割模块的构建包括以下步骤1至步骤2:步骤1构建语义分割网络训练样本集、验证样本集和测试样本集:使用CityScapes数据集中的leftImg8bit_trainvaltest8位LDR格式标准注释图像集和gtFine_trainvaltest精细注释标签作为数据集,共包含19个类别,5000张图片。其中2975张图片是训练样本集,1525张图片是测试样本集,500张图片是验证样本集。在训练之前,将数据集转换成tfrecord文件。在进行训练时,只能使用训练样本集;并在进行测试时,只能使用测试样本集;同样,在进行验证时,只能使用验证样本集。步骤2采用残差网络结构和空洞卷积,搭建输出像素级标签的全卷积网络:语义分割模块;构建语义分割模块。附图3是语义分割模块网络框图。输入视频帧,输出是与输入相同分辨率的语义分割结果。整个网络以全卷积神经网络为基础,不包含全连接层,网络结构主要由7个block组成,其中,第一个block中只包含一个卷积层和一个池化层,对输入视频帧进行初步处理;后6个block中采用残差网络结构。残差网络结构示意图如附图4所示。具体来说,假设输入是X,经过3次卷积操作和2次非线性操作relu激活函数后的输出是FX,将FX与输入的一个同等映射X相加得到HX。而训练过程中,不再拟合HX,而是拟合残差函数HX-X,也就是FX。深度卷积神经网络中会出现“随着网络层数加深,准确率下降”的问题,及退化问题,而残差网络结构解决了这个问题,使得网络更容易优化,可以单纯通过增加层数来提升网络性能。如果将附图4所示的包含3次卷积操作、3次非线性操作和1次加法操作的结构成为一个残差模块的话,则block2中包含3个残差模块,block3中包含4个残差模块,block4、block5、block6、block7均包含3个残差模块。其中,block2和block3采用的是标准卷积方式,因此导致输出大小尺寸相比输入不断变小,而block4、block5、block6、block7中采用的是空洞卷积方式,输出大小尺寸与输入相同。空洞卷积的示意图如附图5所示,图中,卷积核大小是5*5,但是只有浅色的位置有值,其余位置都为0,因此这个卷积核的运算量只有3*3大小,相当于一个3*3标准卷积核的运算量。虽然计算量相同,但是5*5空洞卷积核的感受野却要比3*3的标准卷积核大的多,几乎是3倍。卷积神经网络中一般都会有池化层,池化操作的作用之一就是增大感受野,另个一作用是降低特征图的尺寸,但尺寸的降低是语义分割中不希望看到的,因为这意味着将特征图恢复到输入尺寸大小的时候要进行更高倍数的上采样。而采用空洞卷积,设置其卷积步长为1,在有填充的情况下便可以保持输入输出大小的一致,同时增大了感受野,这很好的取代了池化层的作用,同时也降低了后续上采用的倍数。因此在block4、block5、block6、block7中采用空洞卷积替代标准卷积后,可以将池化层去掉,这样的操作使得卷积得到的特征图更加稠密,进而最终得到的结果更加准确。最终,block7的输出再经过上采样后得到与输入相同尺寸的输出图。步骤3对语义分割模块进行训练、测试和验证,通过调整参数和优化器得到分割效果理想的模型。步骤4:构建光流估计的深度学习数据集;步骤5:构建光流模块。光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到当前帧跟上一帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。光流模块的输入为当前帧和关键帧链接后的图像,输出为当前帧与关键帧相比像素点的运动矢量,即每个像素位置上都有一个x方向和y方向的位移。因此,完全可以通过关键帧的语义分割结果,结合当前帧与关键帧之间的像素的位移信息,推测出当前帧的分割图。附图6是光流模块网络示意图,首先将当前帧和关键帧在通道维度上进行相加,即两张RGB3通道的图片经过链接得到一个6通道的输入。光流模块网络采用编码-解码器结构,由6个卷积层和4个反卷积层组成。前6个卷积层用于提取特征信息,同时每一个卷积层的输出尺寸相比输入尺寸不断缩小。从第2个卷积层开始,将每个卷积层的输出结果保存下来,作为之后反卷积过程中的其中一个输入。后4个反卷积层中,我们对特征图进行反卷积操作,并且把反卷积后的输出同之前对应的特征图以及上一层的光流预测链接起来。每层提升2倍的分辨率,最终预测出来的光流的分辨率比输入图像的分辨率要小4倍,再通过上采样得到与输入图像相同大小的光流。利用语义分割模块得到的关键帧的分割结果,以及光流模块得到的当前帧与关键帧之间的光流信息,通过融合得到当前帧预测的语义分割结果。步骤6:利用数据集对光流模块进行训练、测试,得到训练完成的光流模块;步骤7:构建混合模块。混合模块指的是视频帧中有的部分进行语义分割模块的处理,其余部分进行光流模块的处理。由于视频数据的一大来源是自动驾驶辅助系统中的车载摄像头,而自动驾驶正是语义分割一个十分重要的应用场景,因此可以根据车载摄像头拍摄的视频的特点进行进一步的处理。在这里,将视频帧分成三个部分,如图7所示,一般深色区域是变化不大,并对计算机语义理解影响较小的部分,而白色区域是行人、车辆较密集的区域。该区域运动变化较为明显,在连续帧之间可能在语义上会有剧烈变化的部分。因此,混合模块对同一视频帧进行分区域的处理:对白色区域进行语义分割处理,并将分割结果更新到关键帧的相应部分;对深色区域进行光流模块的处理,不重新进行语义分割,而是利用这一区域和关键帧相对应区域的光流信息及关键帧相对应区域的语义分割结果进行预测。步骤8:构建模式判别模块。将视频序列的每二十帧的第一帧设定为关键帧,第十帧设定为半关键帧。若输入视频帧为关键帧,选择语义分割模块进行处理;若输入视频帧为半关键帧,选择混合模块进行处理;其余帧作为当前帧送入光流模块;利用光流模块得到的光流信息判断与关键帧或半关键帧的差异,若差异大过给定阈值,强制设定输入下一帧视频帧为关键帧。这是因为光流模块的处理时间要远远小于语义分割模块的处理时间,但是在准确性上要差很多,且非常依赖关键帧的语义分割结果,因此模式判别模块通过不断更新关键帧与非关键帧来达到在保证准确度下降不多的前提下大幅度提升运速度的目的。步骤9,动态反馈机制。为了提高网络的自适应性,增加动态反馈指标。由于光流模块计算速度较快,且其可以得到当前帧与关键帧之间的变化趋势,因此将光流模块中的得到的特征图作为依据,给出判断当前帧与关键帧之间差异的指标。这里采用的是像素点上位移矢量的欧氏距离的加权平均值。之后给出一个阈值,阈值可按照需要进行赋值。若差异指标小于阈值,不对网络进行干预,若差异指标大于阈值,强制设定下一帧为关键帧。这里,并不是对光流模块的每一帧都进行计算该指标的操作,为了减小计算量,采取每十帧随机选取一帧进行反馈的机制。附图9是对附图8进行语义分割之后得到的结果。可以用不同颜色分割出不同类别物体的边框。分割结果比较精细。本发明针对视频序列提出了一种多模式语义分割方法,对输入的视频帧采取不同的处理模式,与现有语义分割方法相比,以少量精度上的牺牲,换取了速度上成倍的提升。目前较为主流的语义分割方法的处理速度在2fps左右,本发明的处理速度达到了12fps。表格1对比了本发明与其他比较经典的语义分割方法处理速度的对比。本发明的处理速度比其他的方法快了一个数量级。网络模型处理速度fpsFCN1.2PSPnet1.6Deeplab2本发明12以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

权利要求:1.计算高效的多模式视频语义分割方法,所述方法使用了三种不同的模式对输入的视频帧进行处理:语义分割模块、光流模块和混合模块,其特征在于,该方法通过模式判别针对每一个视频帧特点选择不同的模块处理,通过语义分割和光流信息在时间或空间的结合,从而得到精度和处理速度折中的结果,所述方法的具体步骤如下:步骤1:构建语义分割网络训练样本集、验证样本集和测试样本集;步骤2:采用残差网络结构和空洞卷积,搭建输出像素级的全卷积网络:语义分割模块;步骤3:对语义分割模块进行训练、测试和验证,得到验证后的语义分割模块;步骤4:构建光流估计的深度学习数据集;步骤5:构建基于特征提取的深度学习光流模块,该模块包括卷积提取特征网络结构以及放大部分网络结构;步骤6:利用数据集对光流模块进行训练,得到训练完成的光流模块;步骤7:构建混合模块:将输入视频帧进行区域分割,将动态变化强烈的区域分割出来进行语义分割,其余区域利用光流信息和关键帧进行预测;步骤8:构建模式判别模块:将视频帧的每二十帧的第一帧设定为关键帧,每十帧第一帧设定为半关键帧,若输入视频帧为关键帧,选择语义分割模块进行处理;若输入视频帧为半关键帧,选择混合模块进行处理;其余帧作为当前帧送入光流模块;步骤9:利用光流模块得到的光流信息判断与关键帧或半关键帧的差异,若差异大过给定阈值,强制设定下一帧为关键帧。2.根据权利要求1所述的计算高效的多模式视频语义分割方法,其特征在于:所述步骤2中以全连接神经网络为基础,采用了残差结构和空洞卷积,全连接神经网络是指去掉了网络中的全连接层,替换为卷积层,残差结构是为了解决网络过深而出现的性能下降的问题。3.根据权利要求1所述的计算高效的多模式视频语义分割方法,其特征在于:所述步骤4中的光流模块流程大概为:将关键帧和当前帧叠加在一起,通过卷积层提取特征,然后再经过放大网络对图片进行反卷积,得到和输入相同分辨率的光流预测图,然后将得到的光流预测图与关键帧的特征图进行融合得到该时刻帧的特征图。4.根据权利要求1所述的计算高效的多模式视频语义分割方法,其特征在于:所述步骤6中的混合模块:将输入帧的中间的区域进行语义分割处理,其余区域结合光流信息和关键帧进行预测。5.根据权利要求1所述的计算高效的多模式视频语义分割方法,其特征在于:所述步骤7的模式判别模块的具体方法为:将输入的视频帧进行不同模式的选择,把输入的视频帧按照每二十帧划分一次,二十帧的第一帧设定为关键帧,二十帧的第十帧设定为半关键帧,将判定为关键帧的视频帧选择语义分割模块进行细致的处理,并记录语义分割的结果;将判定为半关键帧的视频帧选择混合模块进行针对关键区域的细致处理,并记录语义分割的结果;将其余帧选择光流模块,结合光流信息与关键帧和半关键帧的语义信息进行快速的处理。6.根据权利要求1所述的计算高效的多模式视频语义分割方法,其特征在于:所述步骤8的具体方法为:将当前视频帧通过光流模块得到的光流信息的位移绝对值的加权平均设为反馈参数,针对此参数设定阈值,若反馈参数超过了设定阈值,强制设定下一帧为关键帧,并以此关键帧为新一轮的第一帧按照每二十帧为一次重新划分。

百度查询: 东南大学 计算高效的多模式视频语义分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。