买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种快速的草坪语义分割及边界检测方法_西南科技大学_201910683100.1 

申请/专利权人:西南科技大学

申请日:2019-07-26

公开(公告)日:2024-04-02

公开(公告)号:CN110399840B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/44;G06V10/26;G06V10/82;G06N3/0464

优先权:["20190522 CN 2019104271081"]

专利状态码:有效-授权

法律状态:2024.04.02#授权;2019.11.26#实质审查的生效;2019.11.01#公开

摘要:为快速精确地辨识出不同场景、环境以及季节的草坪和非草坪区域以及其边界位置,本发明提出一种快速的草坪语义分割及边界检测方法,该方法基于快速语义分割模型进行草坪语义分割,并通过八邻域编码法检测草坪边界。本方法包括如下步骤:步骤1、通过摄像头获取视频帧;步骤2、利用快速语义分割模型分割当前帧,获得分割结果掩膜图像;步骤3、二值化分割结果掩膜图像,利用八邻域编码法检测草坪边界;步骤4、将检测结果映射到原图像上,作为输出图像;重复步骤2到步骤4,直到系统关闭。本方法能够快速、准确地进行草坪语义分割,检测出草坪边界。

主权项:1.一种快速的草坪语义分割及边界检测方法,包括如下步骤:步骤1、通过摄像头获取视频帧;步骤2、利用快速草坪语义分割模型分割当前帧,获得分割结果掩膜图像;步骤3、二值化分割结果掩膜图像,利用八邻域编码法检测草坪边界;步骤4、将检测结果映射到原图像上,作为输出图像;重复步骤2到步骤4,直到系统关闭;其中,所述利用快速草坪语义分割模型分割当前帧,获得分割结果掩膜图像,包括:将当前帧输入到PULNet模型中,分割出草坪掩膜和非草坪类掩膜,其中,所述分割结果掩膜图像包括所述草坪掩膜和所述非草坪类掩膜,所述非草坪类掩膜的颜色为黑色0,0,0,所述草坪掩膜的颜色为绿色4,250,7;其中,PULNet模型是一个能够表达丰富图像细节信息和语义信息的语义分割模型:1.1建立Dilated_ResNet50基础网络,扩大模型有效感受野和降低模型的复杂度;1.2构建池化金字塔结构,提高特征图对于图像的旋转、平移以及多尺度变化的不变性;1.3设计上采样降维结构,进一步加快语义分割网络的速度以及增强特征图的细节信息,对上采样降维结构中两个上采样处理后的特征图进行回归和预测,预测结果设定为P116和P18;其中,P116表示原图尺寸116大小的特征图的预测结果,P18表示原图尺寸18大小的特征图的预测结果;其中,所述上采样降维结构实现上采样降维的过程包括:首先,将池化金字塔结构输出的通道数为1024的池化特征图用1×1大小的滤波器降低为256,经过两倍上采样后,再对其做通道数为128、滤波器大小为3×3、扩张率为2的扩张卷积;其次,将Dilated_ResNet50基础网络中Conv3_1残差块的输出特征图的通道数用1×1大小的滤波器降低为128;最后,加性融合上述两个过程的输出特征图后,再做相同的上采样和扩张卷积处理;1.4构建图像局部细节信息网络,弥补池化金字塔和上采样降维结构带来的细节信息损失,对局部细节信息网络上采样后的特征图进行回归和预测,预测结果设定为P14;其中,P14表示原图尺寸14大小的特征图的预测结果;其中,图像局部细节信息网络用原始大小的图像作为输入,具体过程如下:首先,使用通道数为32、滤波器大小为3×3、步长为2的标准卷积层进行两次卷积,每次卷积都有批次归一化BN和激活函数ReLU;其次,使用通道数为64,与前两次卷积同样大小的滤波器和步长卷积一次,再使用1×1大小的滤波器将通道数更改为128,与上采样降维结构的输出特征图做加性融合后上采样到原来的2倍;最后,经过扩张率为4、7和9的扩张卷积后拼接再进行2倍上采样,再更改通道数后经过上采样得到输出层。

全文数据:一种快速的草坪语义分割及边界检测方法技术领域本发明属于计算机视觉领域,特别涉及一种快速的草坪语义分割及边界检测方法。背景技术随着人工智能以及大数据的快速发展,具有视觉信息的数据呈指数型增长。研究计算机视觉的宗旨是在海量的视频及图像的数据中提取具有语义信息的目标,使得计算机能够更好的理解和解决现实世界中的问题,给人们带来极大方便。目标检测虽然能辨识图像中目标的位置和类别,但无法检测目标的具体边界,也无法对图像中草坪、湖水、天空以及墙面裂纹等大面积或不规则的目标进行准确检测。然而医疗、智能机器人以及无人机等应用,一般在大面积特定区域进行作业,需要计算机辨识出目标区域及其边界所在位置,这是一个目标区域的辨识和边界定位问题,概括为边界的检测问题。对于草坪语义分割及其边界检测问题,需要分析图像中场景的语义,辨识出草坪与非草坪区域。在此基础上定位出草坪以及与草坪相接触的非草坪区域的边界。目标区域辨识是一个图像分割问题,图像分割主要分为两种方法:基于人工设计特征的图像分割方法和基于卷积神经模型(Convolutionalneuralnetwork,CNN)的语义分割方法。基于人工设计特征的图像分割主要包括阈值法、聚类以及纹理等方法。这些方法具有实时的速度,但极容易出现空洞、相近特征区域之间相互“污染”以及误识等问题,导致边界的定位不准确。基于卷积神经模型的语义分割方法,具有自动学习特征的能力,并且不同层次学习不同的特征:低层的卷积层能表达图像的细节信息,学习图像的局部区域特征,有利于图像中各目标区域边界的定位;高层的卷积层能表达图像的语义信息,学习深层次的抽象特征,有利于图像中各目标区域的分类,比基于人工设计特征的方法取得了更好的分割效果。随着深度学习的发展,LongJ等人首次将全卷积的CNN用于语义分割,提出FCN模型,采用可学习的反卷积结构进行上采样弥补多次标准卷积和池化层引起的细节损失,并且进行逐像素的分类,但可学习的反卷积层结构,增加了计算量,并且模型缺少局部细节信息和语义信息,出现较为严重的类内不一致现象。后续又出现了SegNet、DeepLab、PSPNet和ICNet等语义分割模型。但是上述模型都存在着一些问题,例如SegNet有效感受野较小,高层的语义信息不足;DeepLab缺失图像的细节信息;PSPNet计算量大,速度很慢;ICNet高层语义信息的表达能力较弱。综上所述,目前的图像分割方法在识别率、识别速度、实时性、功能性等方面都还难以满足实际的应用需求。发明内容针对草坪区域的检测问题,本发明提出了一种快速的草坪语义分割及边界检测方法,该方法基于快速语义分割模型分割草坪类和非草坪类,并通过八邻域编码法检测草坪边界。该方法具有识别率高,速度快的特点。本发明的技术解决方案包括如下步骤:步骤1、通过摄像头获取视频帧;步骤2、利用快速草坪语义分割模型分割当前帧,获得分割结果掩膜图像;步骤3、二值化分割结果掩膜图像,利用八邻域编码法检测草坪边界;步骤4、将检测结果映射到原图像上,作为输出图像;重复步骤2到步骤4,直到系统关闭。本发明与现有技术相比,其显著优点是:1)本发明方法检测速度快,能够满足实时性的要求;2)本发明方法准确率高,能够准确的检测出草坪区域及其边界,具有实用性。附图说明图1为本发明的草坪检测流程图;图2为本发明的PULNet模型的结构图;图3为本发明的PULNet模型中的Dilated_ResNet50网络;图4为本发明的PULNet模型中的池化金字塔结构;图5为本发明的PULNet模型中的上采样降维结构卷积过程;图6为本发明的PULNet模型中的图像局部细节信息网络;图7为本发明的八邻域编码法对二值图像边界点定位示意图;图8为本发明和其他方法的草坪分割效果图对比;图9为自建数据集的部分实例。具体实施方式下面结合附图及具体实例对本发明方案作进一步说明。快速的草坪语义分割及边界检测流程图如图1,包括视频采集、PULNet草坪分割草坪类、掩膜二值化、草坪边界定位和视频输出。具体步骤如下:步骤1、采集视频,通过摄像头采集视频帧,作为后续检测网络的输入。步骤2、利用快速语义分割模型分割当前帧,获得分割结果掩膜图像,将当前帧输入到PULNet模型中,分割出草坪类和非草坪类掩膜,其中非草坪类掩膜的颜色为黑色(0,0,0),草坪掩膜的颜色为绿色(4,250,7)。图2是PULNet的结构图,由图像局部细节信息网络、Dilated_ResNet50基础网络、上采样降维结构以及池化金字塔共同构建。图中绿色方块为标准卷积输出特征图,红色方块为扩张卷积输出特征图,黄色方块为池化特征图,紫色方块为用于预测的特征图。为了满足语义分割的实时性和精确性,以及降低模型的复杂度和提高泛化能力,将ResNet50网络设计成Dilated_ResNet50网络结构,见图3。首先,摒弃ResNet50网络最后的平均池化、特征拉伸和全连接层,只留下特征图提取层用于提取语义特征;其次,将除Conv1_x之外模块的输出特征图的通道数更改为128、256、512以及1024用于减小网络的特征维度,并且将Conv3_1的输出特征图双线性插值为该输入特征图的一半,进一步提高语义特征提取的速度;最后为了避免语义的表达能力不足,提高网络的有效感受野,将Conv4_x和Conv5_x中3×3的标准卷积更改为3×3、扩张率为2的扩张卷积(DilatedConvolution)。同时本方法设计了池化金字塔结构,见图4,池化金字塔的输入和输出特征图都是132倍的图像大小,首先对输入特征图做全局平均池化,以及窗口大小是输入特征图12、13、14大小的平均池化,分别得到四个池化特征图,形成池化金字塔;其次,对四个池化特征图双线性插值到132的图像大小;最后进行加性融合。池化金字塔融合了不同区域的特征图上下文信息,提高了有效感受野,从而加强特征图的语义表达能力,并且弱化了单个池化层特征图导致的细节信息损失。金字塔结构的池化层在损失较少细节信息的情况下大大提高了有效感受野和特征对于图像的旋转、平移以及多尺度变化等的不变性。为了进一步加快语义分割网络的速度、降低模型特征图的复杂度以及增强特征图的细节信息,本方法设计了上采样降维结构,该结构在降低特征图维度的同时融合具有较为丰富细节信息的低层特征图。图5是上采样降维结构的卷积过程,右边为卷积的具体参数,“Conv1×1,256,1,BN,ReLU”代表滤波器大小为1×1,通道数为256,步长为1的标准卷积,接着是批次归一化BN和激活函数ReLU;“Dilated_Conv3×3,128,2,BN”代表滤波器大小为3×3,通道数为128,扩张率为2的扩张卷积,接着是批次归一化BN;上采样为双线性插值方法。上采样降维结构的过程:首先,将通道数为1024的池化特征图用1×1大小的滤波器降低为256,经过两倍上采样后,再对其做通道数为128、滤波器大小为3×3、扩张率为2的扩张卷积;其次,将Dilated_ResNet50基础网络中Conv3_1残差块的输出特征图的通道数用1×1大小的滤波器降低为128;最后,加性融合上述两个过程的输出特征图后,再做相同的上采样和扩张卷积处理。对上采样降维结构中两个上采样处理后的特征图进行回归和预测,将预测结果设定为P116和P18。为了进一步弥补池化金字塔和上采样降维结构带来的细节信息损失,构建图像局部细节信息网络,见图6,用原始大小的图像作为输入,具体过程如下:首先,使用通道数为32、滤波器大小为3×3、步长为2的标准卷积层进行两次卷积(每次卷积都有批次归一化BN和激活函数ReLU);其次,使用通道数为64,与前两次卷积同样大小的滤波器和步长卷积一次,再使用1×1大小的滤波器将通道数更改为128,与上采样降维结构的输出特征图做加性融合后上采样到原来的2倍;最后,经过扩张率为4、7和9的扩张卷积后拼接再进行2倍上采样,再更改通道数后经过上采样得到输出层。对局部细节信息网络上采样后的特征图进行回归和预测,预测结果设定为P14。图像局部细节信息网络不仅提取图像细节信息,还结合了上下文信息,有利于提高语义分割的准确性。本方法将原图尺寸14、18、116大小的三个特征图的预测结果定义为P14、P18和P116,获得三个交叉熵损失L1、L2和L3,总的交叉熵损失L的计算方式如下:(1)用1×1大小的滤波器分别改变三个特征图的通道数为训练的类别数n,并将特征图的形状改变为向量形式;(2)首先将标签图像(类别和像素值相等)的大小缩放为(1)中三个特征图的大小,并将形状改变为向量形式,然后做掩码处理。掩码的目的是将三个尺寸的标签图像中小于等于类别数的值取出组成一个标签向量G=(G1,G2,G3),并记录G中每个灰度值在标签图像中的位置索引,将(1)中的结果按照索引取出,组成一个预测向量P=(P1,P2,P3);(3)将上述三组P和G按照式(1)计算交叉熵损失L1、L2和L3:(1)式(1)中n为训练样本数量,按照式式(2)计算总的交叉熵损失:(2)表示对参数W的正则化,分别表示L1、L2和L3的权重系数。步骤3、二值化分割结果掩膜图像,利用八邻域编码法测草坪边界具体的提取方法为:(1)获取PULNet语义分割模型的分割结果掩膜图像,其中非草坪类掩膜的颜色为黑色(0,0,0),草坪掩膜的颜色为绿色(4,250,7);(2)二值化掩膜图像,草坪为1,非草坪类为0;(3)用一个3×3的窗口,从下到上,从左到右以一定步长遍历图像,统计窗口内的草坪类像素点个数Nd:(3)Ckm表示窗口中心点的8个邻域点的编码,草坪类为1,非草坪类为0,下标k,m∈[0,2],且k和m不同时为1,d为3×3窗口遍历的步长。Nd4时,窗口未扫描到草坪边界点;若Nd≥4,草坪边界点待定,并且窗口向右移动,Nd不断增加,则窗口搜寻到草坪边界点,当前窗口的中心坐标点i,j即为草坪边界点坐标,停止往右遍历。若窗口从左到右扫描时,起始点Nd≥7,并且随着窗口向右移动,不变或者变化的幅度较小,表示该区域全是草坪,如果Nd不断减小,则该区域有障碍物;图7是八邻域编码法对二值图像边界点定位示意图。步骤4、将检测结果映射到原图像上,作为输出图像,重复步骤2到步骤4,直到系统关闭。草坪分割效果如图8所示,分割图像是P14的预测结果,分割掩膜图像由标签图像获得。表1是在自建的草坪数据集(部分数据集实例见图9)上的指标对比,输入图像大小为848×480,所用服务器配置为GPUGTX1080Ti,CPUI7-7700K。实验结果表明本方法在检测准确率和检测速度上都是十分优秀的,平均交并比(IntersectionOverUnion,IOU)到达了96.32%,速度达到了67.3帧秒,具有很好的实用性。表1草坪测试集指标对比

权利要求:1.一种快速的草坪语义分割及边界检测方法,包括如下步骤:步骤1、通过摄像头获取视频帧;步骤2、利用快速草坪语义分割模型分割当前帧,获得分割结果掩膜图像;步骤3、二值化分割结果掩膜图像,利用八邻域编码法检测草坪边界;步骤4、将检测结果映射到原图像上,作为输出图像;重复步骤2到步骤4,直到系统关闭。2.根据权利要求1所述的方法,其特征在于,步骤2中的快速语义分割模型,是一个能够表达丰富图像细节信息和语义信息的语义分割模型,PULNet:(1)建立Dilated_ResNet50基础网络,扩大模型有效感受野和降低模型的复杂度;(2)构建特征金字塔结构(Poolingpyramid,P),提高特征图对于图像的旋转、平移以及多尺度变化等的不变性;(3)设计上采样降维结构(Upsamplingdimensionreductionstructure,U),进一步加快语义分割网络的速度以及增强特征图的细节信息,对上采样降维结构中两个上采样处理后的特征图进行回归和预测,预测结果设定为P116和P18;(4)构建图像局部细节信息网络(Localdetailinformationstructure,L),弥补池化金字塔和上采样降维结构带来的细节信息损失,对局部细节信息网络上采样后的特征图进行回归和预测,预测结果设定为P14。3.根据权利要求1所述的方法,其特征在于,步骤3中二值化分割结果掩膜图像,利用八邻域编码法检测草坪边界,具体方法为:(1)获取PULNet语义分割模型的分割结果掩膜图像,其中非草坪类掩膜的颜色为黑色(0,0,0),草坪掩膜的颜色为绿色(4,250,7);(2)二值化掩膜图像,草坪类为1,非草坪类为0;(3)用一个3×3窗口,从下到上,从左到右以一定步长遍历图像,统计窗口内的草坪类像素点个数,Ckm表示窗口中心点的8个邻域点的编码,草坪类为1,非草坪类为0,下标k,m∈[0,2],且k和m不同时为1,下标d表示窗口遍历的步长,Nd4时,窗口未扫描到草坪边界点,若Nd≥4,草坪边界点待定,并且窗口向右移动,Nd不断增加,则窗口搜寻到草坪边界点,当前窗口的中心坐标点i,j即为草坪边界点坐标,停止往右遍历,若窗口从左到右扫描时,起始点Nd≥7,并且随着窗口向右移动,不变或者变化的幅度较小,表示该区域全是草坪,如果Nd不断减小,则该区域有障碍物。

百度查询: 西南科技大学 一种快速的草坪语义分割及边界检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。