买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】使用深度分割的图像数据中的对象检测_SAP欧洲公司_201711213362.9 

申请/专利权人:SAP欧洲公司

申请日:2017-11-28

公开(公告)日:2020-12-01

公开(公告)号:CN108122239B

主分类号:G06T7/12(20170101)

分类号:G06T7/12(20170101);G06T7/564(20170101);G06T7/90(20170101);G06T7/00(20170101)

优先权:["20161129 US 15/363,482"]

专利状态码:有效-授权

法律状态:2020.12.01#授权;2019.11.22#实质审查的生效;2018.06.05#公开

摘要:接收用于视场的由至少一个光学传感器生成的RGB‑D数据。此后,RGB‑D数据被分支成用于视场的iRGB数据和ii深度数据。在深度数据内定义一个或多个边界多边形,其各自表征封装对象的视场内的窗。然后使用多个边界多边形裁剪RGB数据。稍后能够将图像处理应用到所裁剪的RGB数据以识别在其中的至少一个对象。也描述了相关联的装置、系统、技术、和物品。

主权项:1.一种由一个或多个数据处理器实现的方法,所述一个或多个数据处理器形成至少一个计算设备的部分,所述方法包括:由至少一个数据处理器接收用于视场的、由至少一个光学传感器生成的RGB-D数据;由至少一个数据处理器将所述RGB-D数据分支成用于所述视场的iRGB数据和ii深度数据;由至少一个数据处理器定义所述深度数据内的至少一个边界多边形,其各自表征视场内的封装对象的窗;由至少一个数据处理器使用所述至少一个边界多边形裁剪所述RGB数据;以及由至少一个数据处理器将图像处理应用到所裁剪的RGB数据以通过以下操作识别在其中的至少一个对象:将两个或更多个不同类型的边界多边形检测技术应用到所裁剪的RGB数据以定义多个提议的边界多边形;基于所述多个提议的边界多边形定义至少一个最终边界多边形;以及使用所述至少一个最终边界多边形识别和分类所述至少一个对象;其中第一边界多边形检测技术是深度分割且第二边界多边形检测技术是颜色分割。

全文数据:使用深度分割的图像数据中的对象检测技术领域[0001]本文所描述的主题涉及使用深度分割的对图像数据内的对象的定位,以定义围绕对象的边界多边形从而促进进一步的图像处理。背景技术[0002]传感器越来越多地在多个计算平台采用(包括用于游戏平台、移动电话等的独立传感器以提供多维图像数据例如,三维数据等)。这些图像数据被计算性地分析以定位对象,并且,在某些情况下,以稍后识别或否则表征这些对象。然而,在多维图像数据内的对象的定位和识别两者仍然不精确。发明内容[0003]在一方面,接收用于视场的由至少一个光学传感器生成的RGB-D数据。此后,RGB-D数据被分支成用于视场的⑴RGB数据和ii深度数据。在深度数据内定义一个或多个边界多边形,其各自表征封装对象的视场内的窗。然后使用(多个边界多边形裁剪RGB数据。稍后能够将图像处理应用到裁剪的RGB数据以识别在其中的至少一个对象。[0004]至少一个边界多边形的形状能够是矩形的。一个或多个边界多边形的形状能够具有三条或更多条边。[0005]能够使用深度分割定义多个边界多边形。深度分割能够将具有相似深度的像素分组以定义对象的外边缘。[0006]图像处理的应用能够包括将至少一个其它边界多边形检测技术应用到裁剪的RGB数据以定义被用于识别和分类对象的至少一个第二边界多边形。这样的其它边界多边形检测技术能够包括诸如边缘框模型、SelectiveSearch、BING、CPMC、Endres、测地线、MCG、Objectness、Rahtu、随机棱镜、Rantalankila、Gaussian、SlidingWindow、Superpixels、和均匀uniform的技术。在其它变化中,这样的其它边界多边形检测技术包括颜色分割模型。[0007]图像处理的应用能够包括将两个或更多个不同类型的边界多边形检测技术应用到裁剪的RGB数据以定义多个提议的边界多边形,以及基于多个提议的边界多边形定义被用于识别和分类对象的至少一个最终边界多边形。至少一个最终边界多边形的定义能够包括应用多个提议的边界多边形的联合的交集,以及基于哪一个提议的边界多边形具有与其它提议的边界多边形相交最多的区来选择至少一个最终边界多边形。至少一个提议的边界多边形的形状能够是矩形或具有三条或更多条边的其它多边形形状。[0008]在相互关联的方面,接收用于视场的由至少一个光学传感器生成的组合的颜色和深度数据。此后,组合的颜色和深度数据被分支成用于视场的(i颜色数据和(ii深度数据。能够在深度数据内定义各自表征封装对象的视场内的窗的一个或多个边界多边形。能够使用(多个边界多边形裁剪颜色数据。能够将图像处理应用到裁剪的颜色数据以识别在其中的至少一个对象。[0009]组合的颜色和深度数据能够是RGB-D数据或点云数据。[0010]也描述了非暂时性的计算机程序产品(g卩,物理地体现的计算机程序产品),其存储当由一个或多个计算系统的一个或多个数据处理器运行时使得至少一个数据处理器执行本文的操作的指令。类似的,也描述了可以包括一个或多个数据处理器和耦合到一个或多个数据处理器的存储器的计算机系统包括诸如移动电话、可穿戴设备例如,智能眼镜、虚拟现实耳机、增强现实设备等)、和平板计算机等的智能设备)。存储器可以临时地或永久地存储使得至少一个处理器执行本文所述的操作中的一个或多个操作的指令。此外,既能够由单个计算系统内的一个或多个数据处理器,也能够由分布在两个或更多个计算系统当中的一个或多个数据处理器来实现方法。这样的计算系统能够被连接并且能够经由一个或多个连接包括但不限于通过网络例如,互联网、无线广域网络、局域网、广域网、有线网络等)的连接)、经由多个计算系统中的一个或多个之间的直接连接等来交换数据和或命令或其它指令等。本文描述的主题提供了许多技术优点。例如,当前的主题提供多维图像数据诸如RGB-D数据、点云、和也包括深度信息的从传感器以及CAD工具获得的其它图像数据)内增强的对象定位和对象表征。[0012]本文描述的主题的一个或多个变体的细节在附图和下面的描述中阐述。本文描述的主题的其它特征和优点将从描述和附图、以及从权利要求书中变得显而易见。附图说明[0013]图1是示出使用深度分割的图像的裁剪的过程流程图;[0014]图2是示出使用两个或更多个对象定位技术的所提议的边界多边形的生成的过程流程图;[0015]图3包括示出用于对象定位的深度分割的例示;[0016]图4包括示出用于对象定位的颜色分割的第一方面的例示;[0017]图5包括示出用于对象定位的颜色分割的第二方面的例示;[0018]图6是示出使用二元分类器和两个或更多个多级分类器的组合对在边界多边形内的对象的分类的过程流程图;[0019]图7A和图7B是示出从图像数据的元数据的导出的例示;[0020]图8是示出使用深度分割的图像数据中的对象检测的过程流程图;以及[0021]图9是用于实现本文描述的多方面的计算设备。[0022]各种附图中的相同附图标记指示相同的元件。具体实施方式[0023]当前主题针对用于在多维图像数据内定位(S卩,检测等对象的增强的技术。这样的多维图像数据能够,例如,由指定颜色和深度信息两者的光学传感器生成。在一些情况下,多维图像数据是RGB-D数据,而在其它情况下,能够利用其它类型的多维图像数据,包括但不限于点云数据。虽然以下主要结合RGB-D图像数据来描述,但是应当理解,除非另有说明,否则当前主题可应用于其它类型的多维图像数据(即,组合颜色和深度数据信息的数据),所述其它类型的多维图像数据包括来自深度传感器相机的视频流其能够被表征为一系列RGB-D图像)。[0024]图1是示出使用深度数据的边界框box的生成的过程流程图1〇〇。最初,在11〇处,接收RGB-D数据(S卩,从远程计算系统接收、从本地数据存储访问、从远程数据库访问、从实时视频流访问、从一系列传感器例如,3-D相机、红外线传感器、超声波传感器等导出等)。这样的数据能够,例如,由相对于视场放置的光学传感器生成或以其它方式导出,所述光学传感器能够,例如,在两个维度表征颜色和视场内的可选择的像素的深度。在一些情况下,能够利用多个光学传感器,使得第一光学传感器提供颜色信息,并且第二光学传感器提供深度数据,并且这样的传感器的输出被组合以形成RGB-D数据或其它类型的多维图像数据)。在其它变化中,能够有多个光学传感器,并且这样的传感器的输出能够被组合以提供比可能以其它方式用单个光学传感器提供的视场更广阔的视场。多个传感器的使用也通过组合具有诸如红外线、超声波等的不同波长的不同种类的传感器和相机来提高所获得的RGB-D数据的细节的质量和程度。还将理解,由(多个光学传感器生成的视场能够是可变的。这样的可变性能够发生,例如,如果光学传感器正在移动和或被部分遮蔽。示例光学传感器能够并入诸如INTELREALSENSE技术和或MICROSOFTKINECT技术等的技术以提供多维图像数据。此外,多维图像数据能够是点云以及从传感器和CAD工具获得的包括深度信息的其它数据。[0025]在RGB-D数据的接收之后,这样的RGB-D数据能够被分支(g卩,分割等到它的单独的分量中,使得颜色信息RGB与深度信息⑼分开并且不同,以形成分别示出视场的RGB图像150和视场的深度通道图像120的两个图像。然后深度通道图像120经受深度分割130如将在下面进一步详细描述的),以识别深度通道图像120内的一个或多个对象,来使得定义至少一个边界多边形140,其反过来定义围绕识别的(多个对象的周界。该边界多边形定义封装对应图像内的区的一系列连接的坐标。该边界多边形140能够采取具有三条或更多条连接边的许多形式。在某些情况下,边界多边形能够是矩形,然而,在要求更精细的分辨率并且潜在地具有更大的计算资源的其它情形下,边界多边形能够具有多于四条边。[0026]然后能够将定义的边界多边形140应用到视场的RGB图像150以裁剪RGB图像似形成裁剪的RGB图像160和或裁剪的RGB-D图像170,其反过来,能够被用于定位在这样的图像内的(多个对象。然后能够将包括,例如,进一步定位技术、随后是对象分类表征技术的各种类型的图像处理应用于裁剪的RGB图像160和或裁剪的RGB-D图像170。这样的安排是有益的,因为用于对象定位经由边界多边形的定义)的从颜色信息的深度信息的分支和深度信息的使用提供了比如果要使用组合的颜色深度图像数据时对象的更大的定位识别精度。应当理解,能够提供对本文的分割技术的变型,诸如对结果混合blobbing等。[0027]图2是示出图1的变型的过程流程图200,其中裁剪的RGB图像160经受进一步处理。将理解,对于图2的示例,相似的过程能够应用到RGB-D图像170,并且示例仅使用RGB图像数据160来简化说明。类似于图1,RGB-D数据被接收110,然后被分支成RGB图像150和深度通道图像120,使得深度分割130能够被应用到深度通道图像120。该深度分割130用于定义边界多边形140然后随后应用到RGB图像150,使得RGB图像150能够被制作成裁剪的RGB图像160。[0028]继续如图2所示,使用第一对象定位技术210来处理裁剪的RGB图像160,以识别在裁剪的RGB图像160内识别对象的提议的边界多边形的第一集合。此外,并行地,也使用第二、不同的对象定位技术220处理裁剪的RGB图像160,以识别在裁剪的RGB图像160内识别对象的提议的边界多边形的第二集合。能够利用各种类型的区域提议对象定位技术,包括边缘模型技术、颜色分割(如本文所述)Objectness、Rahtu、随机棱镜、Rantalankila、Gaussian、SlidingWindow、Superpixels、均勾uniform、等等。[0029]在某些情况下,能够使用两种以上的对象定位技术。此外,在某些变型中,对象定位技术能够顺序地和或部分并行地执行。然后分析提议的边界多边形的第一和第二集合在某些情况下仅一个边界多边形被定位技术中的一个识别),以确定跨提议的边界多边形的第一和第二集合的联合union或其它重叠的交集230。基于该确定,确定至少一个最优边界多边形240。然后,该最优边界多边形240能够用于随后的图像处理,包括如应用到裁剪的RGB图像160的对最优边界多边形240内的任何封装的对象的分类。[0030]如上所述,深度分割130能够在没有RGB信息的益处的情况下采用深度通道图像120并且使用深度信息定义边界多边形140。图3的示图300示出利用已经从多维数据图像生成的深度通道图像310的一种类型的深度分割。深度通道图像310最初被分割以生成分割的图像320。通过,例如,将具有相似深度值(g卩,相对于彼此在值的预定义范围内的深度值的所有像素分组到两个或更多个组中的一个组来执行该分割。在分割的图像320的示例中,组包括前景部分324和背景部分322。一旦在分割的图像320中定义了这些组322、324,则能够生成分割的图像324的二进制以得到二值图像binaryimage330如示出的仅包括前景对象)。如在图像340中示出的,然后能够生成封装前景对象的边界多边形342。由边界多边形342的各种边缘封装的图像数据然后能够经受进一步的图像处理,包括但不限于对象的分类。[0031]如上所述,能够结合本文提供的深度分割使用其它类型的对象定位技术。在某些情况下,诸如对于颜色分割,这些对象定位技术也能够单独地使用。参考图4至图5的示图400、f500,提供了示出如本文所提供的颜色分割的一系列图像。颜色分割在本文中被提供作为定位图像裁剪的示例类型,并且除非另有说明,否则被打算作为能够被利用的许多技术中的一个。最初,提供原始图像405其能够是二维RGB图像或多维图像等),所述原始图像4〇5随后被裁剪410。该裁剪能够基于对象识别或其它技术来减少从对象分离的像素数据的量即,移除明显不是对象的部分的图像的部分等)。在某些情况下,裁剪的图像410能够使用诸如结合图1所描述的技术被提供。[0032]能够对裁剪的图像410执行颜色阈值colorthresholding以得到经颜色阈值的图像415。该颜色阈值将具有在预定义带之内的颜色的像素分组在一起,使得颜色的总数减少。经颜色阈值的图像415能够稍后经受得到识别感兴趣的对象的可能边缘的边缘图像420的边缘建模。然后能够填充边缘图像420的孔(g卩,能够将由共同带的像素在至少两条边围绕的区修改为与最接近的像素分组公用等),以形成孔填充的边缘图像425。孔填充的边缘图像425然后能够用黑色填充以得到黑色填充的边缘图像430。然后黑色填充的边缘图像430能够被转换成二值图像4邪,其反过来,能够被转换成互补二值图像440。然后能够丢弃二值图像43f5的小区域,并且初始边界多边形在这种情况下为一个框能够封装对象以得到小区域滤波的,框图像445。小区域,滤波框445的互补能够被修改以丢弃具有低于预定义的阈值的大小的连接的区域,来得到丢弃的连接的区域图像45〇。丢弃的连接的区域图像450的逆奶5然后能够被修改以具有在最大连接的区域周围的新框以指定最终边界多边形457。然后能够将该最终边界多边形457应用到原始图像460,使得能够对最终边界多边形457内的图像的部分执行随后的成像处理g卩,对象分类等)。^[OO33]图6是不出用于对RGB-D图像数据610内的对象的分类的技术的过程流程图6〇〇。最初,在可能包含感兴趣的对象的RGB-D图像数据610内提议区域620。能够,例如,通过如结合图1所描述的裁剪RGB图像来提议这些区域。如上所述,其它类型的区域提议技术能够被使用。在所提议的区域内,在63〇处,能够使用,例如,深度分割、颜色分割、边缘模型、或用于生成边界多边形的其它技术来提议各种类型的边界多边形。~[0034]然后所提议的边界多边形630被提交到被用于做出是否每个提议的边界多边形封装对象的确定的二元分类器binaryclassifier640«3二元分类器640不提供对在相应的提议的边界多边形内封装了什么对象的识别或其它分类,而是提供对是否在其中有被封装的对象的二元确定。在某些情况下,二元分类器M0能够使用表征图像对象的元数据来做出它的确定。如果二元分类器M0确定在相应的边界多边形内没有被封装的对象,则丢弃提议的边界多边形65〇。否则,表征相应的边界多边形的信息被传送到第一对象分类器660和第二对象分类器670两者。这些分类器660、670两者做出在相应的边界多边形边界多边形不再被提议,因为二元分类器640已经确定在其中封装了对象)内什么类型的对象被封装的确定。这些确定然后被提供到最终对象分类模块680,该最终对象分类模块680然后在相互矛盾的确定中选择在相应的边界多边形内封装的最终对象。然后能够以某些方式包括,例如,存储在物理持久性中、加载到存储器、发送到远程计算系统、和或在电子视觉显示器设备上显示提供表征这个最终对象的信息。[0035]二元分类器MO能够在它的对是否提议的边界多边形封装对象的确定中利用一个或多个机器学习模型。这个确定能够是开放式的,因为它完全地涉及任何对象或它能够被限制到对象的定义的集合(S卩,己知的对象或己知的对象类型)。利用后一示例,例如,如果当前主题与仓库内的盘点相结合而使用,则对象的定义的集合能够涉及商品的包装,使得诸如人、叉车、货架、照明装置等的其它物品如果呈现在提议的边界多边形内,则能够被丢弃。[0036]二元分类器640能够使用,例如,用能够可选择地表征已知的对象的历史数据训练的至少一个机器学习模型。被二元分类器640利用的机器学习模型能够是以下中的一个或多个:神经网络例如,卷积神经网络、基于区域和测量的卷积神经网络等)、逻辑回归模型、支持向量机、决策树、系综装袋、推进、随机森林等)、k-最近邻居、线性回归、朴素贝叶斯、逻辑回归、感知器以及其它机器学习模型。作为这样的机器学习模型的训练的部分,为图像数据建立特征,其然后从历史图像数据中被提取以促进使用二元分类器640的未来预测确定。在某些情况下,二元分类器640利用RGB-D数据中的深度信息作为在训练机器学习模型和在确定是否提议的边界多边形封装对象两者中使用的特征中的一个。二元分类器640,当接收表征提议的边界多边形的数据时,从这样的数据中提取预定义的特征并且将这样的数据输入到至少一个机器学习模型中以做出是否提议的边界多边形封装对象的确定。[0037]第一对象分类器660也能够利用至少一个机器学习模型。被第一对象分类器660利用的机器学习模型能够是以下中的一个或多个:神经网络(例如,卷积神经网络等)、逻辑回归模型、支持向量机、决策树、系综装袋、推进、随机森林等)、1^_最近邻居、线性回归、朴素贝叶斯、逻辑回归、感知器以及其它机器学习模型。作为这样的机器学习模型的训练的部分,为图像数据建立特征,其然后从历史图像数据中被提取以促进使用第一对象分类器660的未来预测确定。和二元分类器6仙相反,第一对象分类器660是提供被封装在边界多边形内的对象的表征的多级分类器。[0038]第一对象分类器66〇从图像数据提取特征,所述图像数据能够,例如,包括表征图像的元数据。在某些情况下,元数据作为图像数据的部分而被包括,然而,在其它实施方式中,元数据能够被分开地存储或从生成图像数据的(多个光学传感器被分开地导出)。例如,元数据能够包括在边界多边形内的对象的测量,诸如,例如,长度、高度、深度、世界坐标3-D坐标)、平均颜色、尺寸和形状、图像捕获的当日时间等。[0039]图7A和图7B示出这样的元数据中的某些如何能够被生成。参考700A,在提议的格点面mask例如,20X20等)内画出苹果以用于测量。这个格点面能够被应用到裁剪的二值图像使得长度和高度能够使用格点计算并且能够确定这些格点的三维坐标。从格点面的每个单元cell内的不同值,在预定义的阈值例如,在20X20格点面的情况中为16之上的值的最大数量能够被表征为具有高置信度其能够帮助避免传感器由于诸如噪声等的因素的测量错误)。用这些计算,能够表征对象的形状。t〇〇4〇]参考图7B的例示700B,为确定平均颜色其将形成元数据的部分),裁剪的图像能够被细分在此情况中被分为4X4矩阵)。在每个单元处,能够计算平均颜色。[0041]在一种方案中,形成元数据的部分的所有特征能够被排列为行向量。然后能够应用支持向量机以训练和测试底层模型。在不同的方案中,能够应用LDA来将数据[例如,NX48]变换到[NXM]的更低维度空间,其中(iN=样本的数量,(iiM=决定边界的目标维度空间(例如,2。然后能够应用支持向量机以训练和测试底层模型。[0042]第二对象分类器670也能够利用至少一个机器学习模型。被第二对象分类器670利用的机器学习模型能够是以下中的一个或多个:神经网络例如,卷积神经网络等)、逻辑回归模型、支持向量机、决策树、系综装袋、推进、随机森林等)、k-最近邻居、线性回归、朴素贝叶斯、逻辑回归、感知器以及其它机器学习模型。作为这样的机器学习模型的训练的部分,为图像数据建立特征,其然后从历史图像数据中被提取以促进使用第二对象分类器670的未来预测确定。和第一对象分类器66〇类似,第二对象分类器670是提供被封装在边界多边形内的对象的表征的多级分类器。[0043]第二对象分类器670也能够从表征提议的边界多边形的数据中提取特征用于向一个或多个机器学习模型的输入,从而识别边界多边形内的相应的对象。由第二对象分类器670提取的特征能够不同于由第一对象分类器660提取的特征。例如,第二对象分类器670可以不必利用元数据。[0044]第二对象分类器670的特征提取能够,例如,使用将图像特征作为字对待的字袋bag-〇fi〇rd,B〇W模型。作为BoW模型的部分,特征能够被检测、基于学习视觉词汇在向量中被表示为特征描述符,并且能够通过将所有向量变换为码字使用,例如,k-均值聚类生成码本。能够使用该码本将图像表示为作为码字的直方图。码本和或码字能够,例如,被支持向量机或其它机器学习模型利用以做出哪一个对象被包括在相应的边界多边形内的确定。[0045]在某些变型中,第一对象分类器660和第二对象分类器670中的一个或两者能够使用一系列机器学习模型,所述机器学习模型各自被训练为表征识别不同类型的对象。例如,第一机器学习模型能够被训练为将小的对象分类,第二机器学习模型能够被训练为将大的对象分类,第三机器学习模型能够被训练为将球形对象分类,第四机器学习模型能够被训练为将矩形对象分类,第五机器学习模型能够被训为将人分类,第六机器学习模型能够被训练为将动物分类,等等。在某些情况下,提取的特征和或元数据能够被用于确定各种机器学习模型中的哪一个能够结合分类而被利用。在这种情况下,将从元数据中导出这些模型中的哪些在并行处理中能够是若干个被触发。在此处元数据被作为预分类使用并且将n级问题减少为更简单的问题,因为每个机器学习模型仅对这些n级的子集负责。[0046]最终对象分类模块680能够从第一对象分类器6e〇和第二对象分类器670接收指示被相应的对象分类器6e〇、670识别的对象的可能性的分数或其它测量例如,置信测量)。当选择最终对象时,最终对象分类模块680使用这样的分数测量。例如,具有最高分数的对象能够被选择为最终对象不管对象分类器66〇、670中的哪一个识别了这样的对象)。能够利用诸如使用多个分数的加权和的其它选择技术。[0047]图8是过程流程图800,其中在810处,接收用于视场的由至少一个光学传感器生成的RGB-D数据。其后,在82〇处,RGB-D数据被分支成用于视场的⑴RGB数据和(ii深度数据。在830处,在深度数据内定义至少一个边界多边形,其各自表征在封装对象的视场内的窗。在840处,使用至少一个边界多边形裁剪RGB数据。在850处,能够将图像处理应用到裁剪的RGB数据以识别在其中的至少一个对象。[0048]本文描述的主题的一个或多个方面或特征能够被实现为数字电子电路、集成电路、专门设计的专用集成电路applicationspecificintegratedcircuit,ASIC、场可编程逻辑阵列fieldprogrammablegatearray,FPGA、计算机硬件、固件、软件、和或其组合。能够由包括但不限于台式机、笔记本计算机和平板计算机、以及IoT设备、可穿戴设备例如,智能眼镜、虚拟现实耳机、增强现实设备等)、和移动电话的各种各样的计算系统实现当前主题的多方面。这些各种方面或特征能够包括在包括至少一个可编程处理器的可编程系统上可运行和或可解释的一个或多个计算机程序中的实施方式,所述可编程处理器能够是专用或通用的,被耦合以从以下各项接收数据和指令以及将数据和指令发送到以下各项:存储系统、至少一个输入设备、和至少一个输出设备。可编程系统或计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系凭借在相应的计算机上运行并且具有对于彼此的客户端-服务器关系的计算机程序而出现。[0049]也能够被称为程序、软件、软件应用、应用、组件、或代码的这些计算机程序,能够包括用于可编程处理器的机器指令,并且或者能够用高级程序语言、面对对象的编程语言、功能性的编程语言、逻辑编程语言实现、和或用汇编机器语言实现。如本文所使用的,术语“机器可读介质”指的是被用于将机器指令和或数据提供给包括接收机器指令作为机器可读信号的机器可读介质的可编程处理器的任何计算机程序产品、装置和或设备,诸如,例如,磁性盘、光盘、存储器、和可编程逻辑设备ProgrammableLogicDevice,PLD。术语“机器可读信号”指的是用于将机器指令和或数据提供给可编程数据处理器的任何信号。机器可读介质能够非暂时性地储存这样的机器指令,诸如,例如,正如非暂时性的固态存储器或磁性硬盘驱动器或任何等效的存储介质将要做的那样。机器可读介质能够可选择地或额外地以暂时性的方式存储这样的机器指令,诸如,例如,正如处理器缓存或与一个或多个物理处理器核相关联的其它随机存取存储器将要做的那样。[0050]本文描述的计算机组件、软件模块、功能、数据存储和数据结构能够直接地或间接地连接到彼此,以便允许它们的操作所需要的数据的流动。也注意到模块或处理器包括但不限于执行软件操作的代码的单元,并且能够被实现为,例如,代码的子程序单元、或代码的软件功能单元、或对象(当在面向对象的范式中时)、或小应用程序、或在计算机脚本语言中、或另一类型的计算机代码。软件组件和或功能可以取决于当前的情形而位于单个计算机或跨多个计算机而分布。[0051]图9是示出用于实现本文所描述的各种方面的样本计算设备架构的示图。总线904能够充当与其它示出的硬件的组件相互连接的信息高速公路。标记CPUcentra1processingunit,中央处理器)的处理系统9〇8例如,在给定计算机处或在多个计算机处的一个或多个计算机处理器数据处理器),能够执行运行程序所要求的计算和逻辑操作。非暂时性处理器可读的存储介质,诸如只读存储器readonlymemory,R0M912和随机存取存储器randomaccessmemory,RAM916能够与处理系统908保持通信并且可以包括用于这里指定的操作的一个或多个编程指令。可选择地,程序指令可以存储在诸如磁盘、光盘、可记录存储器设备、闪存存储器、或其它物理存储介质的非暂时性计算机可读存储介质上。[0052]在一个示例中,磁盘控制器9仙能够将一个或多个可选的磁盘驱动器接合到系统总线904。这些磁盘驱动器可以是诸如960的外部或内部磁盘驱动器,诸如952的外部或内部CD-ROM、CD-R、CD-RW或DVD、或固态驱动器,或外部或内部硬盘驱动器956。如前所述,这些各种磁盘驱动器952、956、960、和磁盘控制器是可选的设备。系统总线904也能够包括至少一个通信端口920以允许与物理连接到计算系统或通过有线或无线网络而外部可访问的外部设备的通信。在某些情况下,通信端口920包括或以其它方式包括网络接口。[0053]为了提供与用户的交互,本文所描述的主题能够在具有用于向用户显示从总线904获得的信息的显示器设备940例如,CRTcathoderaytube,阴极射线管)或LCDliquidcrystaldisplay,液晶显示器监控器)以及通过其用户可以向计算机提供输入的诸如键盘和或指示设备例如,鼠标或轨迹球和或触摸屏的输入设备932的计算设备上实现。其它种类的设备也可以被用于提供与用户的交互;例如,被提供给用户的反馈可以是任何形式的传感反馈例如,视觉反馈、经过麦克风936的听觉反馈、或触觉反馈);并且可以以任何形式从用户接收输入,包括声音、语音、触觉输入。在输入设备932中麦克风936能够经过输入设备接口928被耦合到总线904并且经由总线9〇4传达信息。诸如专用服务器的其它计算设备,能够省略显示器94〇和显示器接口924、输入设备932、麦克风936、和输入设备接口928中的一个或多个。[0054]在以上描述和权利要求中,诸如•中的至少一个”或•中的一个或多个”的短语可以出现,随后是元件或特征的连接列表。术语“和或”也可以出现在两个或更多个元件或特征的列表中。除非另有隐式地或显式地与它在其中被使用的上下文相矛盾,否则这样的短语意在单独地表示任何列出的元件或特征或与任何其它所列举的元素或特征组合的任何所列举的元件或特征。例如,短语“A和B中的至少一个”、“A和B中的一个或多个”、和“A和或B”各自意在表示“单独的A、单独的B、或A和B—起”。类似的解释也意在用于包括三个或更多个术语的列表。例如,短语“A、B、和C中的至少一个”、“A、B、和C中的一个或多个”、和“A、B、和或C”各自意在表示“单独的A、单独的B、单独的C、A和B—起、A和C一起、B和C一起、或A和B和C一起”。此外,在上述和在权利要求中的术语“基于”的使用意在表示“至少部分地基于”,使得未被列举的特征或元件也是可允许的。[0055]取决于所期望的配置,本文所描述的主题能够体现在系统、装置、方法、和或物品中。在前面的描述中阐述的实施例不代表与本文所述主题一致的所有实施例。相反,它们仅仅是与和所述主题相关联的方面一致的一些示例。虽然上面已经详细地描述了一些变化,但是其它修改或者添加是可能的。特别地,除了本文所阐述的那些之外,还能够提供进一步的特征和或变化。例如,上述实现能够针对所公开的特征的各种组合和子组合,和或如上公开的若干进一步特征的组合和子组合。此外,在附图所描绘的和或在本文所描述的逻辑流程不必要求所示的特别的顺序、或连续顺序,来达到所期望的结果。其它实施方式可以在所附权利要求的范围之内。

权利要求:1.一种由一个或多个数据处理器实现的方法,所述一个或多个数据处理器形成至少一个计算设备的部分,所述方法包括:接收用于视场的由至少一个光学传感器生成的RGB-D数据;将所述RGB-D数据分支成用于所述视场的⑴RGB数据和ii深度数据;定义所述深度数据内的至少一个边界多边形,其各自表征在封装对象的视场内的窗;使用所述至少一个边界多边形裁剪所述RGB数据;以及将图像处理应用到所裁剪的RGB数据以识别在其中的至少一个对象。2.如权利要求1所述的方法,其中所述至少一个边界多边形的形状是矩形。3.如权利要求1所述的方法,其中所述至少一个边界多边形的形状具有三条或更多条边。4.如权利要求1所述的方法,其中所述至少一个边界多边形的定义利用深度分割。5.如权利要求4所述的方法,其中所述深度分割将具有相似深度的像素分组以定义所述对象的外边缘。6.如权利要求1所述的方法,其中应用图像处理包括:将至少一个其它边界多边形检测技术应用到所裁剪的RGB数据以定义被用于识别并分类所述对象的至少一个第二边界多边形。7.如权利要求6所述的方法,其中所述至少一个其它边界多边形检测技术包括从包括以下各项的组中选择的技术:边缘框模型、SelectiveSearch、BING、CPMC、Endres、测地线、MCG、Objectness、Rahtu、随机棱镜、Rantalankila、Gaussian、SlidingWindow、Superpixels、和均勾(uniform〇8.如权利要求6所述的方法,其中所述至少一个其它边界多边形检测技术包括颜色分割模型。9.如权利要求1所述的方法,其中应用图像处理包括:将两个或更多个不同类型的边界多边形检测技术应用到所裁剪的RGB数据以定义多个提议的边界多边形;以及基于被用于识别和分类所述对象的所述多个提议的边界多边形定义至少一个最终边界多边形。10.如权利要求9所述的方法,其中所述至少一个最终边界多边形的定义包括:应用所述多个提议的边界多边形的联合的交集;以及基于哪一个提议的边界多边形具有与其它提议的边界多边形相交最多的区,选择所述至少一个最终边界多边形。11.如权利要求10所述的方法,其中所述至少一个最终边界多边形的形状是矩形。12.如权利要求10所述的方法,其中所述至少一个最终边界多边形的形状具有三条或更多条边。13.—种由一个或多个数据处理器实现的方法,所述一个或多个数据处理器形成至少一个计算设备的部分,所述方法包括:接收用于视场的由至少一个光学传感器生成的组合的颜色和深度数据;将所述组合的颜色和深度数据分支成用于所述视场的(i颜色数据和ii深度数据;定义所述深度数据内的至少一个边界多边形,其各自表征封装对象的视场内的窗;使用所述至少一个边界多边形裁剪所述颜色数据;以及将图像处理应用到所裁剪的颜色数据以识别在其中的至少一个对象。14.如权利要求13所述的方法,其中所述组合的颜色和深度数据是RGB-D数据。15.如权利要求13所述的方法,其中所述组合的颜色和深度数据是点云数据。16.—种系统,包括:至少一个数据处理器;以及存储器,其存储当由所述至少一个数据处理器运行时导致包括以下各项的操作的指令:接收用于视场的由至少一个光学传感器生成的RGB-D数据;将所述RGB-D数据分支成用于所述视场的⑴RGB数据和ii深度数据;定义所述深度数据内的至少一个边界多边形,其各自表征封装对象的视场内的窗;使用所述至少一个边界多边形裁剪所述RGB数据;以及将图像处理应用到所裁剪的RGB数据以识别在其中的至少一个对象。17.如权利要求16所述的系统,其中所述至少一个边界多边形的形状具有三条或更多条边。18.如权利要求16所述的系统,其中所述至少一个边界多边形的定义利用深度分割。19.如权利要求18所述的系统,其中所述深度分割将具有相似深度的像素分组以定义所述对象的外边缘。20.如权利要求16所述的系统,其中应用图像处理包括:将两个或更多个不同类型的边界多边形检测技术应用到所裁剪的RGB数据以定义多个提议的边界多边形;以及基于被用于识别和分类所述对象的所述多个提议的边界多边形定义至少一个最终边界多边形。

百度查询: SAP欧洲公司 使用深度分割的图像数据中的对象检测

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。