买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于高效卷积网络和卷积条件随机场的语义分割方法_杭州电子科技大学_201910429790.8 

申请/专利权人:杭州电子科技大学

申请日:2019-05-22

公开(公告)日:2020-07-21

公开(公告)号:CN110288603B

主分类号:G06T7/10(20170101)

分类号:G06T7/10(20170101);G06N3/04(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.21#授权;2019.10.29#实质审查的生效;2019.09.27#公开

摘要:本发明公开了一种基于高效卷积网络和卷积条件随机场的语义分割方法。本发明具体步骤如下:1、输入一张任意尺寸的RGB图像,采用由下采样模块和一维非瓶颈单元构成的编码器网络对原始RGB图像进行语义提取,得到一个由特征图组成的矩阵;2、采用反卷积层和一维非瓶颈单元,将编码器网络学习的辨别性特征从语义上映射到像素空间,以得到密集分类结果;3、采用卷积条件随机场网络层,结合原始RGB图像的像素点信息和解码器网络得到的像素点分类信息,对像素点语义特征再次进行分类,从而达到输出结果优化的目的。本发明采用全新的编码解码网络端到端的对像素点进行分类,通过使用效率高的卷积条件随机场网络对分割结果进行再优化。

主权项:1.基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于包括如下步骤:步骤1、输入一张任意尺寸的RGB图像,采用由下采样模块和一维非瓶颈单元构成的编码器网络对原始RGB图像进行语义提取,得到一个由特征图组成的矩阵;步骤2、采用反卷积层和一维非瓶颈单元,将编码器网络学习的辨别性特征从语义上映射到像素空间,以得到密集分类结果;步骤3、采用卷积条件随机场网络层,结合原始RGB图像的像素点信息和解码器网络得到的像素点分类信息,对像素点语义特征再次进行分类,从而达到输出结果优化的目的;步骤1具体实现如下:对输入的RGB图像进行编码处理,用于编码的网络层由16层神经网络构成,其中第1、2、8层为下采样层,第一层网络的输入尺寸为原始RGB图像的尺寸,输出为512*256*16;第二层网络输入为第一层的输出,输出为256*128*64;第八层网络输入为256*128*64,输出为128*64*128;采用的下采样层结构如下:采用滤波器为3x3、步长为2的卷积层和滤波器为2*2、步长为2的最大池化层构成;编码器的其余13层全部使用由“一维非瓶颈单元”模块构成的卷积网络;其中第3-7层网络输入尺寸为256*128*64,输出尺寸为256*128*64;第9-16层为输入为128*64*128,输出尺寸为128*64*128;所述的网络层采用残差学习,具体如下:当F和x相同维度时,直接相加,公式如下:y=Fx,{Wi}+x当F和x维度不同时,需要先将x做一个变换,然后再相加,公式如下:y=Fx,{Wi}+WSx每一个“一维非瓶颈单元”模块由四层卷积层构成,一三层为滤波器为3*1的卷积层,二四层为3*1的卷积层构成;层与层之间使用激活函数进行连接;步骤2具体实现如下:解码网络由7层神经网络层构成;部分网络用于对编码器网络提取到的特征图进行上采样,以将输出图像尺寸匹配为与输入的原始RGB图像一致;为将特征图重新扩大到与原始RGB图像相同尺寸,在解码器网络部分,采用三层反卷积层,其中第17层网络输入为128*64*128,输出为256*128*64,第20层输入为256*128*64,输出为512*256*16,最后一层输入为512*256*16,输出为1024*512*C,其中C表示图中像素点的总类数,使用的反卷积层为滤波器为2*2,步长为2的网络层;步骤3具体实现如下:对于解码网络得到的结果,结合原始RGB图像对其结果进行像素点再分类,使用卷积条件随机场步骤如下:3-1.对于解码网络得到的结果,将其视作概率图,则解码器输出便是一个L通道的矩阵,其中每一个通道代表隐变量集X属于图像类别的概率;3-2.卷积条件随机场用条件独立假设补充全连接条件随机场,将解码器得到的结果每一层假设为[bs,c,h,w]的矩阵,视作卷积条件随机场的输入P,其中bs,c,h,w分别表示批大小、类别数量、输入高度和宽度;对于由特征向量f1....fd定义的高斯核g,为其定义一个大小为[bs,h,w]的核矩阵: 其中θi是可学习的参数;对于一组高斯核g1…gs,定义经合并的核矩阵K为: 所有s个核的组合信息传递的最后输出结果Q如下所示:Q[b,c,x,y]=K[b,dx,dy,x,y]·P[b,c,dx+x,dy+y]这种信息传递操作类似于卷积神经网络中标准的二维卷积,滤波器的值取决于空间维度x和y;这与局部连接层相似与局部连接层和二维卷积不同的是,卷积条件随机场的滤波器的通道维度c是不变的,可以将这种操作看作是维度c2上的卷积;为了提高计算速度本方法选择建立一个本地的底层实现,以获得额外10倍的加速;并通过类似于二维卷积和局部连接层来实现这种卷积的高效计算;第一步是平铺输入P以获得形状为[bs,c,k,k,h,w]的数据;这个过程被称为im2col,与二维卷积相同;二维卷积通过在空间维度上批量进行矩阵乘法来完成,该方法用通道维度上的批量点积来代替;3-3.滤波器权重输出: 该步骤是对某一个通道的输入做了不同卷积核以后,再使用一个1×1的卷积核做卷积;卷积核的参数就是个数为m.3-4.兼容性变换: 这样每一个通道的输入经过步骤3-2和3-3都会有一个输出;也就是该步骤的输入是L通道的概率分布图,可理解为对每一个通道再用一个1×1的卷积核做卷积;其中,u1,2与u2,1是不同的;针对1通道的输出,使用卷积{u1,l'}l'∈L得到其对应的输出;针对2通道的输出,使用卷积{u2,l'}l'∈L得到其对应的输出,一直输出L通道的概率分布;卷积核参数为{uL,l'}l'∈L卷积核个数为L;3-5.加入一元概率: 在对应通道上加入FCN输出的概率分布图;3-6.归一化:Qixi←normalizeQixi最终将会得到一张为每个像素点分好类的图像。

全文数据:基于高效卷积网络和卷积条件随机场的语义分割方法技术领域本发明属于计算机视觉与人工智能领域中的图像物体检测与物体分割。具体涉及一种基于高效卷积网络EfficientConvNet和卷积条件随机场ConvolutionalCRFs神经网络结构的语义分割方法。技术背景语义分割是计算机视觉中图像理解的重要一环,它在现实世界中有着广泛的应用,例如,最近很火的无人驾驶的领域,语义分割技术应用在用在无人驾驶的路况信息提取;在医疗领域吗,语义分割技术能准确的将人体各个器官分割开。近年来语义分割技术越来越成熟,2015年,JonathanLong等人提出的全新的FullyConvolutionalNetworksFCN框架让语义分割技术开始飞速发展,随后基于FCN的其他网络如SegNet,deeplab等让语义分割技术逐渐成熟,并能实际运用在生活中。但是FCN网络框架和基于FCN的神经网络框架其准确率和学习速度不能同时兼顾,大多数精确度高的网络往往需要花费很大的计算成本。为了改善这一问题,本发明的方法利用了有别于传统的FCN框架和fully-connectedCRFs框架速度更快的同时又能保证精确度的基于高效卷积网络EfficientConvNet和卷积条件随机场ConvolutionalCRFs神经网络结构的语义分割方法。发明内容本发明的目的是为改善目前大多数语义分割方法存在的需要花费昂贵的计算成本才能保证高精确度的问题,本发明具体框架如下:其输入层为一张RGB图像矩阵,中间层采用本发明中使用的改良的卷积网络进行特征提取和像素分类,发明中的方法在提取图像特征时和像素分类时,有效的重新设计有残余连接的卷积块,通过扩展卷积块的宽度来减少网络层的层数。在保证精确度的同时有效提高了计算速度。在得到像素分类的结果后,本发明采用卷积条件随机场ConvolutionalCRFs网络层进行结果优化,与传统的用全连接层构成的全连接条件随机场fully-connectedCRFs相比,本文所用的方法采用卷积网络层构造条件随机场CRF,其有着更高的计算速度与精确度,在经过卷积条件随机场ConvolutionalCRFs网络层后本方法会得到一张与输入图像同等尺寸的为每一个像素点分好类的结果图。本发明方法具体实现包括如下步骤:步骤1、输入一张任意尺寸的RGB图像,采用由下采样模块和一维非瓶颈单元构成的编码器网络对原始RGB图像进行语义提取,得到一个由特征图组成的矩阵;步骤2、采用反卷积层和一维非瓶颈单元,将编码器网络学习的辨别性特征从语义上映射到像素空间,以得到密集分类结果;步骤3、采用卷积条件随机场网络层,结合原始RGB图像的像素点信息和解码器网络得到的像素点分类信息,对像素点语义特征再次进行分类,从而达到输出结果优化的目的。步骤1具体实现如下:对输入的RGB图像进行编码处理,用于编码的网络层由16层神经网络构成,其中第1、2、8层为下采样层,第一层网络的输入尺寸为原始RGB图像的尺寸,输出为512*256*16;第二层网络输入为第一层的输出,输出为256*128*64;第八层网络输入为256*128*64,输出为128*64*128;采用的下采样层结构如下:采用滤波器为3x3、步长为2的卷积层和滤波器为2*2、步长为2的最大池化层构成;编码器的其余13层全部使用由“一维非瓶颈单元”模块构成的卷积网络;其中第3-7层网络输入尺寸为256*128*64,输出尺寸为256*128*64;第9-16层为输入为128*64*128,输出尺寸为128*64*128。所述的网络层采用残差学习,具体如下:当F和x相同维度时,直接相加,公式如下:y=Fx,{Wi}+x当F和x维度不同时,需要先将x做一个变换,然后再相加,公式如下:y=Fx,{Wi}+WSx每一个“一维非瓶颈单元”模块由四层卷积层构成,一三层为滤波器为3*1的卷积层,二四层为3*1的卷积层构成;层与层之间使用激活函数进行连接。步骤2具体实现如下:解码网络由7层神经网络层构成;部分网络用于对编码器网络提取到的特征图进行上采样,以将输出图像尺寸匹配为与输入的原始RGB图像一致;为将特征图重新扩大到与原始RGB图像相同尺寸,在解码器网络部分,采用三层反卷积层,其中第17层网络输入为128*64*128,输出为256*128*64,第20层输入为256*128*64,输出为512*256*16,最后一层输入为512*256*16,输出为1024*512*C,其中C表示图中像素点的总类数,使用的反卷积层为滤波器为2*2,步长为2的网络层。步骤3具体实现如下:对于解码网络得到的结果,结合原始RGB图像对其结果进行像素点再分类,使用卷积条件随机场步骤如下:3-1.对于解码网络得到的结果,将其视作概率图,则解码器输出便是一个L通道的矩阵,其中每一个通道代表隐变量集X属于该类别的概率;3-2.卷积条件随机场用条件独立假设补充全连接条件随机场,将解码器得到的结果每一层假设为[bs,c,h,w]的矩阵,视作卷积条件随机场的输入P,其中bs,c,h,w分别表示批大小、类别数量、输入高度和宽度;对于由特征向量f1...fd定义的高斯核g,为其定义一个大小为[bs,h,w]的核矩阵:其中θi是可学习的参数;对于一组高斯核g1…gs,定义经合并的核矩阵K为:所有s个核的组合信息传递的最后输出结果Q如下所示:Q[b,c,x,y]=K[b,dx,dy,x,y]·P[b,c,dx+x,dy+y]这种信息传递操作类似于卷积神经网络中标准的二维卷积,滤波器的值取决于空间维度x和y;这与局部连接层相似与局部连接层和二维卷积不同的是,卷积条件随机场的滤波器的通道维度c是不变的,一般可以将这种操作看作是维度c2上的卷积;为了提高计算速度本方法选择建立一个本地的底层实现,以获得额外10倍的加速;并通过类似于二维卷积和局部连接层来实现这种卷积的高效计算;第一步是平铺输入P以获得形状为[bs,c,k,k,h,w]的数据;这个过程通常被称为im2col,与二维卷积相同;二维卷积通过在空间维度上批量进行矩阵乘法来完成,该方法用通道维度上的批量点积来代替;3-3.滤波器权重输出:该步骤是对某一个通道的输入做了不同卷积核以后,再使用一个1×1的卷积核做卷积;卷积核的参数就是个数为m.3-4.兼容性变换:这样每一个通道的输入经过步骤3-2和3-3都会有一个输出;也就是该步骤的输入是L通道的概率分布图,可理解为对每一个通道再用一个1×1的卷积核做卷积;其中,u1,2与u2,1是不同的;针对1通道的输出,使用卷积{u1,l'}l'∈L得到其对应的输出;针对2通道的输出,使用卷积{u2,l'}l'∈L得到其对应的输出,一直输出L通道的概率分布;卷积核参数为{uL,l'}l'∈L卷积核个数为L;3-5.加入一元概率:在对应通道上加入FCN输出的概率分布图;3-6.归一化:Qixi←normalizeQixi最终将会得到一张为每个像素点分好类的图像。本发明的特点及其有益效果本发明采用全新的编码解码网络端到端的对像素点进行分类,在通过使用效率高的卷积条件随机场ConvolutionalCRFs网络对分割结果进行再优化。相比于目前主流的框架,本发明采用了基于对残留层的新颖重新设计,通过堆叠层以顺序方式构建的编码解码网络。通过增加网络层宽度来避免增加深度,完全使用因子化1D核的卷积构造的一维非瓶颈单元Non-bottleneck-1D网络,提高了网络特征提取的执行和正则化的速度,减少参数的使用。采用这样可以极其有效地利用其最小化的图层数量来实现准确的分割。基于本方法,在语义分割上,能够在消耗小的计算量的同时,得到精确的分割结果,并且由于采用了卷积条件随机场ConvolutionalCRFs,分割结果更加精细,且不会在原有的计算成本上增加太多的额外计算成本。本发明的方法其框架中的网络层较少,可在一般的电脑上实现。附图说明图1为本发明方法框架图;图2为方法流程图;图3为本方法使用的高效卷积网络的结构图;图4为一维非瓶颈单元和下采样结构图;具体实施方式为了能更清晰的阐述本发明的上述目的、特点及其优点,下面结合附图和具体实施方式对本发明所提及的方法网络作更加详细的说明。本发明所提出的基于高效卷积网络EfficientConvNet和卷积条件随机场ConvolutionalCRFs神经网络框架的具体构成与步骤如下为了便于说明,在此假设输入图像尺寸为1024x512:步骤1、输入一张任意尺寸的RGB图像,采用由下采样模块Downsamplerblock和一维非瓶颈单元Non-bottleneck-1D构成的编码器网络对原始RGB图像进行语义提取,得到一个由特征图组成的矩阵。具体实现如下:对输入的RGB图像进行编码处理,编码器如图3中的“encoder”部分,用于编码的网络层由16层神经网络构成,其中第1、2、8层为下采样层,第一层网络的输入尺寸为原始RGB图像的尺寸,输出为512*256*16;第二层网络输入为第一层的输出,输出为256*128*64;第八层网络输入为256*128*64,输出为128*64*128。本方法中采用的下采样层结构如图4,采用滤波器filter为3x3、步长为2的卷积层和滤波器filter为2*2、步长为2的最大池化层构成,目前大多数方法只在网络开始时使用这样的结构,但在本方法采用的网络中,此结构被用于每一个下采样层。使用下采样层虽然会降低空间分辨率使得输出结果变得粗略但能结合浅层和深层网络的信息,提高分类结果,而且它能减少网络的计算量。编码器的其余13层全部使用由“一维非瓶颈单元Non-bottleneck-1D”模块构成的卷积网络。其中第3-7层网络输入尺寸为256*128*64,输出尺寸为256*128*64。第9-16层为输入为128*64*128,输出尺寸为128*64*128;其中每一层的“一维非瓶颈单元Non-bottleneck-1D”模块结构如图4。并且该网络层采用残差学习,具体如下:当F和x相同维度时,直接相加element-wiseaddition,公式如下:y=Fx,{Wi}+x这种方法不会增加网络的参数以及计算复杂度。当F和x维度不同时,需要先将x做一个变换linearprojection,然后再相加,公式如下:y=Fx,{Wi}+WSx每一个“一维非瓶颈单元Non-bottleneck-1D”模块由四层卷积层构成,一三层为filter为3*1的卷积层,二四层为3*1的卷积层构成。层与层之间使用激活函数进行连接。利用这样的残差学习网络,这样可以更快地执行,减少参数数量和更好的正则化,而不会对其学习性能产生重大影响。经过第一步对图像进行编码,将得到一个由特征图组成的矩阵。步骤2、采用反卷积层和一维非瓶颈单元Non-bottleneck-1D将编码器网络学习的辨别性特征低分辨率的从语义上映射到像素空间高分辨率的,以得到密集分类结果;如图3的decoder部分,解码网络由7层神经网络层构成。此部分网络用于对编码器网络提取到的特征图进行上采样以将输出图像尺寸匹配为与输入的原始RGB图像一致。在这一步中,本方法同样使用到了四层一维非瓶颈单元Non-bottleneck-1D网络,用残差学习的方法增大感受野,增强网络层之间的联系。为了将特征图重新扩大到与原图相同尺寸,在解码器网络部分,采用三层反卷积层,其中第17层网络输入为128*64*128,输出为256*128*64,第20层输入为256*128*64,输出为512*256*16,最后一层输入为512*256*16,输出为1024*512*C,其中C表示图中像素点的总类数,可见,经过三层反卷积层,本方法得到了与原图相同尺寸的结果。本方法使用的反卷积层为滤波器filter为2*2,步长为2的网络层。步骤3、采用卷积条件随机场ConvolutionalCRFs网络层,结合原始RGB图像的像素点信息和解码器网络得到的像素点分类信息,对像素点语义特征再进行一次分类,从而达到输出结果优化的目的。对于解码器得到的结果,本发明的方法将结合原始RGB图像对其结果进行像素点再分类。以便于得到更精确的结果,此步骤,本发明采用卷积条件随机场ConvolutionalCRFs。使用卷积条件随机场步骤如下:3-1.对于解码器得到的结果,将其视作概率图,则解码器输出便是一个L通道的矩阵,其中每一个通道代表隐变量集X属于该类别的概率。3-2.MessagePassing:卷积条件随机场ConvCRF用条件独立假设补充全连接条件随机场FullCRF。将解码器得到的结果每一层假设为[bs,c,h,w]的矩阵,视作卷积条件随机场的输入P,其中bs,c,h,w分别表示批大小、类别数量、输入高度和宽度。对于由特征向量f1...fd定义的高斯核g,为其定义一个大小为[bs,h,w]的核矩阵:其中θi是可学习的参数。对于一组高斯核g1…gs,定义经合并的核矩阵K为:所有s个核的组合信息传递的最后输出结果Q如下所示:Q[b,c,x,y]=K[b,dx,dy,x,y]·P[b,c,dx+x,dy+y]这种信息传递操作类似于卷积神经网络中标准的二维卷积,滤波器的值取决于空间维度x和y。这与局部连接层相似与局部连接层和二维卷积不同的是,卷积条件随机场的滤波器的通道维度c是不变的,一般可以将这种操作看作是维度c2上的卷积。为了提高计算速度本方法选择建立一个本地的底层实现,以获得额外10倍的加速。并通过类似于二维卷积和局部连接层来实现这种卷积的高效计算。第一步是平铺输入P以获得形状为[bs,c,k,k,h,w]的数据。这个过程通常被称为im2col,与二维卷积相同。二维卷积通过在空间维度上批量进行矩阵乘法来完成,本方法用通道维度上的批量点积来代替这一步骤。3-3.滤波器权重输出WeightingFilterOutputs:这一步是上一步不同的卷积核输出的带权累加。即可以理解为对某一个通道的输入做了不同卷积核以后,再使用一个1×1的卷积核做卷积。卷积核的参数就是个数为m.3-4.兼容性变换CompatibilityTransform:这样每一个通道的输入经过步骤3-2和3-3都会有一个输出;也就是这一步的输入是L通道的概率分布图。这一步可理解为对每一个通道再用一个1×1的卷积核做卷积。这里尤其注意,u1,2与u2,1是不同的;也就是说,这一步我们的输出同样是L通道的输出。比如,针对1通道的输出,我们使用卷积{u1,l'}l'∈L得到其对应的输出。针对2通道的输出,我们使用卷积{u2,l'}l'∈L得到其对应的输出,一直输出L通道的概率分布。卷积核参数为{uL,l'}l'∈L卷积核个数为L。3-5.加入一元概率AddingUnaryPotentials:在对应通道上加入FCN输出的概率分布图。3-6.归一化Normalizing:Qixi←normalizeQixi归一化,可理解为SoftMax层在经过本发明所提到的方法的编码解码网络与卷积条件随机场后,将会得到一张为每个像素点分好类的图像。

权利要求:1.基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于包括如下步骤:步骤1、输入一张任意尺寸的RGB图像,采用由下采样模块和一维非瓶颈单元构成的编码器网络对原始RGB图像进行语义提取,得到一个由特征图组成的矩阵;步骤2、采用反卷积层和一维非瓶颈单元,将编码器网络学习的辨别性特征从语义上映射到像素空间,以得到密集分类结果;步骤3、采用卷积条件随机场网络层,结合原始RGB图像的像素点信息和解码器网络得到的像素点分类信息,对像素点语义特征再次进行分类,从而达到输出结果优化的目的。2.根据权利要求1所述的基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于步骤1具体实现如下:对输入的RGB图像进行编码处理,用于编码的网络层由16层神经网络构成,其中第1、2、8层为下采样层,第一层网络的输入尺寸为原始RGB图像的尺寸,输出为512*256*16;第二层网络输入为第一层的输出,输出为256*128*64;第八层网络输入为256*128*64,输出为128*64*128;采用的下采样层结构如下:采用滤波器为3x3、步长为2的卷积层和滤波器为2*2、步长为2的最大池化层构成;编码器的其余13层全部使用由“一维非瓶颈单元”模块构成的卷积网络;其中第3-7层网络输入尺寸为256*128*64,输出尺寸为256*128*64;第9-16层为输入为128*64*128,输出尺寸为128*64*128。3.根据权利要求2所述的基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于所述的网络层采用残差学习,具体如下:当F和x相同维度时,直接相加,公式如下:y=Fx,{Wi}+x当F和x维度不同时,需要先将x做一个变换,然后再相加,公式如下:y=Fx,{Wi}+WSx每一个“一维非瓶颈单元”模块由四层卷积层构成,一三层为滤波器为3*1的卷积层,二四层为3*1的卷积层构成;层与层之间使用激活函数进行连接。4.根据权利要求2或3所述的基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于步骤2具体实现如下:解码网络由7层神经网络层构成;部分网络用于对编码器网络提取到的特征图进行上采样,以将输出图像尺寸匹配为与输入的原始RGB图像一致;为将特征图重新扩大到与原始RGB图像相同尺寸,在解码器网络部分,采用三层反卷积层,其中第17层网络输入为128*64*128,输出为256*128*64,第20层输入为256*128*64,输出为512*256*16,最后一层输入为512*256*16,输出为1024*512*C,其中C表示图中像素点的总类数,使用的反卷积层为滤波器为2*2,步长为2的网络层。5.根据权利要求4所述的基于高效卷积网络和卷积条件随机场的语义分割方法,其特征在于步骤3具体实现如下:对于解码网络得到的结果,结合原始RGB图像对其结果进行像素点再分类,使用卷积条件随机场步骤如下:3-1.对于解码网络得到的结果,将其视作概率图,则解码器输出便是一个L通道的矩阵,其中每一个通道代表隐变量集X属于该类别的概率;3-2.卷积条件随机场用条件独立假设补充全连接条件随机场,将解码器得到的结果每一层假设为[bs,c,h,w]的矩阵,视作卷积条件随机场的输入P,其中bs,c,h,w分别表示批大小、类别数量、输入高度和宽度;对于由特征向量f1...fd定义的高斯核g,为其定义一个大小为[bs,h,w]的核矩阵:其中θi是可学习的参数;对于一组高斯核g1…gs,定义经合并的核矩阵K为:所有s个核的组合信息传递的最后输出结果Q如下所示:Q[b,c,x,y]=K[b,dx,dy,x,y]·P[b,c,dx+x,dy+y]这种信息传递操作类似于卷积神经网络中标准的二维卷积,滤波器的值取决于空间维度x和y;这与局部连接层相似与局部连接层和二维卷积不同的是,卷积条件随机场的滤波器的通道维度c是不变的,一般可以将这种操作看作是维度c2上的卷积;为了提高计算速度本方法选择建立一个本地的底层实现,以获得额外10倍的加速;并通过类似于二维卷积和局部连接层来实现这种卷积的高效计算;第一步是平铺输入P以获得形状为[bs,c,k,k,h,w]的数据;这个过程通常被称为im2col,与二维卷积相同;二维卷积通过在空间维度上批量进行矩阵乘法来完成,该方法用通道维度上的批量点积来代替;3-3.滤波器权重输出:该步骤是对某一个通道的输入做了不同卷积核以后,再使用一个1×1的卷积核做卷积;卷积核的参数就是个数为m.3-4.兼容性变换:这样每一个通道的输入经过步骤3-2和3-3都会有一个输出;也就是该步骤的输入是L通道的概率分布图,可理解为对每一个通道再用一个1×1的卷积核做卷积;其中,u1,2与u2,1是不同的;针对1通道的输出,使用卷积{u1,l'}l'∈L得到其对应的输出;针对2通道的输出,使用卷积{u2,l'}l'∈L得到其对应的输出,一直输出L通道的概率分布;卷积核参数为{uL,l'}l'∈L卷积核个数为L;3-5.加入一元概率:在对应通道上加入FCN输出的概率分布图;3-6.归一化:Qixi←normalizeQixi最终将会得到一张为每个像素点分好类的图像。

百度查询: 杭州电子科技大学 基于高效卷积网络和卷积条件随机场的语义分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。