买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】对象跟踪方法、装置及设备_北京字节跳动网络技术有限公司_201910524644.3 

申请/专利权人:北京字节跳动网络技术有限公司

申请日:2019-06-18

公开(公告)日:2021-04-27

公开(公告)号:CN110223325B

主分类号:G06T7/246(20170101)

分类号:G06T7/246(20170101);G06T7/73(20170101);G06K9/62(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.27#授权;2019.10.08#实质审查的生效;2019.09.10#公开

摘要:本公开实施例提供一种对象跟踪方法、装置及设备,该方法包括:根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。提高了对象跟踪的精确度。

主权项:1.一种对象跟踪方法,其特征在于,包括:根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置;所述第一图像为视频中的第一帧图像之后的图像;在第一图像中检测至少两个对象区域,包括:在所述第一图像的第一参考区域中进行对象检测,若在所述第一参考区域中未检测到所述目标对象时,在第一图像中检测至少两个对象区域;其中,所述第一参考区域为第二图像中包括所述目标对象的区域,所述第二图像为所述第一图像的前一帧图像。

全文数据:对象跟踪方法、装置及设备技术领域本公开实施例涉及图像技术领域,尤其涉及一种对象跟踪方法、装置及设备。背景技术对象跟踪是指确定跟踪的对象例如,人脸、车辆等在视频的每帧图像中的位置。通常采用如下的方式确定目标对象在一张图像中的位置:在整个图像中进行对象识别,以在整个图像中确定一个可能包含目标对象的一个局部区域,并在该局部区域中确定目标对象的位置。然而,在上述过程中,在整张图像中确定的局部区域中有可能未包括目标对象,这样,在局部区域中识别得到的目标对象可能有误,导致跟踪的精确度较低。发明内容本公开实施例提供一种对象跟踪方法、装置及设备,提高了对象跟踪的精确度。第一方面,本公开实施例提供一种对象跟踪方法,包括:根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,在第一图像中检测至少两个对象区域,包括:将表示所述第一图像的数据和表示所述目标对象的数据输入至识别模型,以得到所述至少两个对象区域;其中,所述识别模型为对多组样本进行学习得到的,每组样本包括样本图像、样本目标对象和在所述样本图像中检测到的至少两个样本对象区域,所述样本对象区域中包括的样本对象与所述样本目标对象的类型相同。在一种可能的实施方式中,在第一图像中检测至少两个对象区域,包括:在所述第一图像中确定至少两组位置信息,每组位置信息包括至少两个点的位置信息;基于所述至少两组位置信息确定所述至少两个对象区域。在一种可能的实施方式中,在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置,包括:分别获取每个对象区域中的对象与所述目标对象的相似度;基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置,包括:基于每个对象区域中的对象与所述目标对象的相似度,在所述至少两个对象区域中确定目标对象区域;其中,在所述至少两个对象区域中,所述目标对象区域中的对象与所述目标对象的相似度最大;基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置,包括:将所述目标对象区域在所述第一图像中的位置确定为所述目标位置;或者,在所述目标对象区域中确定所述目标对象所在区域,并将所述目标对象所在区域在所述第一图像中的位置确定为所述目标位置。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像之后的图像;在第一图像中检测至少两个对象区域,包括:在所述第一图像的第一参考区域中进行对象检测,若在所述第一参考区域中未检测到所述目标对象时,在第一图像中检测至少两个对象区域;其中,所述第一参考区域为第二图像中包括所述目标对象的区域,所述第二图像为所述第一图像的前一帧图像。在一种可能的实施方式中,在所述第一图像的第一参考区域中进行对象检测之前,还包括:获取第二参考区域,所述第二参考区域为所述目标对象在所述第二图像中的位置所对应的区域;对所述第二参考区域进行扩充处理,得到所述第一参考区域,所述第一参考区域包括所述第二参考区域,所述第一参考区域的尺寸大于所述第二参考区域的尺寸。在一种可能的实施方式中,所述至少两个对象区域为所述第一图像中包括第一类型的对象的所有区域。第二方面,本公开实施例提供一种对象跟踪装置,包括检测模块和确定模块,其中,所述检测模块用于,根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;所述确定模块用于,在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,所述检测模块具体用于:将表示所述第一图像的数据和表示所述目标对象的数据输入至识别模型,以得到所述至少两个对象区域;其中,所述识别模型为对多组样本进行学习得到的,每组样本包括样本图像、样本目标对象和在所述样本图像中检测到的至少两个样本对象区域,所述样本对象区域中包括的样本对象与所述样本目标对象的类型相同。在一种可能的实施方式中,所述检测模块具体用于:在所述第一图像中确定至少两组位置信息,每组位置信息包括至少两个点的位置信息;基于所述至少两组位置信息确定所述至少两个对象区域。在一种可能的实施方式中,所述确定模块具体用于:分别获取每个对象区域中的对象与所述目标对象的相似度;基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,所述确定模块具体用于:基于每个对象区域中的对象与所述目标对象的相似度,在所述至少两个对象区域中确定目标对象区域;其中,在所述至少两个对象区域中,所述目标对象区域中的对象与所述目标对象的相似度最大;基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,所述确定模块具体用于:将所述目标对象区域在所述第一图像中的位置确定为所述目标位置;或者,在所述目标对象区域中确定所述目标对象所在区域,并将所述目标对象所在区域在所述第一图像中的位置确定为所述目标位置。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像之后的图像;所述检测模块具体用于:在所述第一图像的第一参考区域中进行对象检测,若在所述第一参考区域中未检测到所述目标对象时,在第一图像中检测至少两个对象区域;其中,所述第一参考区域为第二图像中包括所述目标对象的区域,所述第二图像为所述第一图像的前一帧图像。在一种可能的实施方式中,所述装置还包括获取模块和扩充模块,其中,所述获取模块用于,在所述检测模块在所述第一图像的第一参考区域中进行对象检测之前,获取第二参考区域,所述第二参考区域为所述目标对象在所述第二图像中的位置所对应的区域;所述扩充模块具体用于,对所述第二参考区域进行扩充处理,得到所述第一参考区域,所述第一参考区域包括所述第二参考区域,所述第一参考区域的尺寸大于所述第二参考区域的尺寸。在一种可能的实施方式中,所述至少两个对象区域为所述第一图像中包括第一类型的对象的所有区域;所述第一类型为所述目标对象的类型。第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行第一方面任一项所述的对象跟踪方法。第四方面,本公开实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的对象跟踪方法。本公开实施例提供的对象跟踪方法、装置及设备,在确定目标对象在第一图像中的位置时,根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域,目标对象的类型为第一类型,对象区域中包括第一类型的对象,或者,对象区域中包括第一类型的对象中的一部分,分别在每个对象区域中检测目标对象,以确定目标对象在第一图像中的目标位置。在上述过程中,由于每个对象区域中包括第一类型的对象或者第一类型的对象中的一部分,因此,至少两个对象区域为包括目标对象的所有可能的区域,且每个对象区域较小,使得在至少两个对象区域中可以准确的检测到目标对象,提高了对象跟踪的精确度。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本公开实施例提供的应用场景示意图;图2为本公开实施例提供的一种对象跟踪方法的流程示意图;图3为本公开实施例提供的一种图像示意图;图4为本公开实施例提供的确定对象区域的示意图;图5为本公开实施例提供的另一种对象跟踪方法的流程示意图;图6A为本公开实施例提供的一种对象跟踪示意图;图6B为本公开实施例提供的另一种对象跟踪示意图;图6C为本公开实施例提供的又一种对象跟踪示意图;图7为本公开实施例提供的一种对象跟踪装置的结构示意图;图8为本公开实施例提供的另一种对象跟踪装置的结构示意图;图9为本公开实施例提供的电子设备的结构示意图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。图1为本公开实施例提供的应用场景示意图。请参见图1,视频中可以包括多帧图像,连续的多帧图像中包括的内容可能会有重复。每帧图像中可能包括一种或多种对象,例如,对象可以包括人脸、人手、车辆等。可以根据实际需要对视频中的对象进行跟踪。例如,请参见图1,可以对视频中的女生人脸进行跟踪,即,确定女生人脸在每张图像中的位置。在本公开实施例中,在确定目标对象在一张图像中的位置时,先根据跟踪的目标对象的类型,在该图像中检测至少两个对象区域,目标对象的类型为第一类型,每个对象区域中均包括第一类型的对象或者第一类型的对象中的一部分,分别在每个对象区域中检测目标对象,以确定目标对象在图像中的目标位置。在上述过程中,由于每个对象区域中包括第一类型的对象或者第一类型的对象中的一部分,因此,至少两个对象区域为包括目标对象的所有可能的区域,且每个对象区域较小,使得在至少两个对象区域中可以准确的检测到目标对象,提高了对象跟踪的精确度。下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。图2为本公开实施例提供的一种对象跟踪方法的流程示意图。请参见图2,该方法可以包括:S201、根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域。其中,目标对象的类型为第一类型,对象区域中包括第一类型的对象,或者,对象区域中包括第一类型的对象中的一部分。本公开实施例的执行主体为电子设备,或者设置在电子设备中的对象跟踪装置。可选的,对象跟踪装置可以通过软件实现,也可以通过软件和硬件的结合实现。可选的,电子设备可以为电脑、服务器、手机等设备。第一图像可以为视频中的任意一张图像。视频中包括需要跟踪的目标对象。目标对象可以为人、人脸、人手、车辆、动物等。对象区域是指第一图像中的一部分区域,对象区域可以为矩形区域、三角形区域、圆形区域等,本公开实施例对对象区域的形状不作具体限定。可选的,在第一图像中检测到的对象区域的个数可以为预设的,例如,假设设置需要检测到的对象区域的个数为N,在第一图像中可以检测到N个对象区域,N为大于或等于2的整数。可选的,也可以根据第一图像中包括的内容,确定对象区域的个数。例如,若第一图像中包括较多个第一类型的对象,则在第一图像中检测到的对象区域的个数较多,若第一图像中包括较少个第一类型的对象,则在第一图像中检测到的对象区域的个数较少。下面,结合图3对至少两个对象区域进行说明。图3为本公开实施例提供的一种图像示意图。请参见图3,假设需要跟踪的目标对象为一个男生,该目标对象的类型为人,则在图2所示的图像中可以检测到三个对象区域,分别为对象区域A、对象区域B、对象区域C和对象区域D,对象区域A、对象区域B、对象区域C分别包括人,对象区域D中包括人的一部分。需要说明的是,图3只是以示例的形式示意至少两个对象区域,当然,至少两个对象区域还可以为其它,例如,有可能检测到的对象区域中包括人物中的一部分,本公开实施例对此不作具体限定。可选的,可以通过如下可行的实现方式在第一图像中检测至少两个对象区域:可以在第一图像中确定至少两组位置信息,每组位置信息包括至少两个点的位置信息,并基于至少两组位置信息确定至少两个对象区域。当一组位置信息中包括两个点的位置信息时,可以通过该两个点做矩形框,该两个点为矩形框的一条对角线的两个顶点,该矩形框即为该一组位置信息对应的对象区域。例如,当第一图像为矩形时,则矩形框的一对边相对的两条边与第一图像的上边缘平行,矩形框的另一对边与第一图像的左边缘平行。当一组位置信息中包括的点的个数大于2时,则可以将该多个点所围成的区域确定为该组位置信息对应的对象区域。下面,结合图4,对确定对象区域的过程进行说明。图4为本公开实施例提供的确定对象区域的示意图。请参见图4,可以在第一图像中确定得到三组位置信息,该三组位置信息如表1所示:表1组位置信息第一组点11、点12第二组点21、点22、点23第三组点31、点32针对第一组位置信息,由于第一组位置信息中包括两个点点11和点12的位置信息,则可以通过点11和点12做矩形框,得到矩形区域A,则矩形区域A即为第一组位置信息对应的对象区域。针对第二组位置信息,由于第二组位置信息中包括三个点点21、点22和点23的位置信息,该三个点围成的区域为三角形区域B,则将三角形区域B确定为第二组位置信息对应的对象区域。针对第三组位置信息,由于第三组位置信息中包括两个点点31和点32的位置信息,则可以通过点31和点32做矩形框,得到矩形区域C,则矩形区域C即为第三组位置信息对应的对象区域。可选的,可以通过识别模型确定至少一组位置信息,或者根据识别模型确定至少两个对象区域,具体过程在图5所示的实施例中进行说明,此处不再进行赘述。S202、在至少两个对象区域中检测目标对象,以确定目标对象在第一图像中的目标位置。目标对象可以为预先设置的,例如,在进行对象跟踪之前,将需要跟踪的对象确定为目标对象,即,在进行对象跟踪之前,可以预先确定目标对象对应的图像,目标对象对应的图像中包括该目标对象。例如,假设目标对象为一个人,则可以预先确定该人的图像。目标对象在第一图像中的目标位置可以为目标对象在第一图像中所占的区域。可以通过目标对象在第一图像中所占的区域中的至少两个点表示目标位置。例如,请参见图4,假设目标对象为一个小女孩,目标对象在第一图像中的目标位置为矩形区域A在第一图像中的位置,则可以通过矩形区域中的点11和点12表示目标位置。可选的,可以通过如下可行的实现方式确定目标图像在第一图像中的目标位置:分别获取每个对象区域中的对象与目标对象的相似度,基于每个对象区域中的对象与目标对象的相似度,在至少两个对象区域中确定目标对象区域,并基于目标对象区域的位置,确定目标对象在第一图像中的目标位置。其中,在至少两个对象区域中,目标对象区域中的对象与目标对象的相似度最大。例如,可以将第一图像中每个对象区域对应的图像与目标对象对应的图像进行匹配,以获取第一图像中每个对象区域对应的图像与目标对象对应的图像之间的相似度,该图像之间的相似度即为对象区域中的对象与目标对象的相似度。可选的,在确定得到目标对象区域之后,可以将目标对象区域在第一图像中的位置确定为目标位置;或者,在目标对象区域中确定目标对象所在区域,并将目标对象所在区域在第一图像中的位置确定为目标位置。本公开实施例提供的对象跟踪方法,在确定目标对象在第一图像中的位置时,根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域,目标对象的类型为第一类型,对象区域中包括第一类型的对象,或者,对象区域中包括第一类型的对象中的一部分,分别在每个对象区域中检测目标对象,以确定目标对象在第一图像中的目标位置。在上述过程中,由于每个对象区域中包括第一类型的对象或者第一类型的对象中的一部分,因此,至少两个对象区域为包括目标对象的所有可能的区域,且每个对象区域较小,使得在至少两个对象区域中可以准确的检测到目标对象,提高了对象跟踪的精确度。在上述任意一个实施例的基础上,针对视频中的第一帧图像,可以通过图2实施例所示的方法确定目标对象在第一帧图像中的位置。针对视频中第一帧图像之后的图像,可以根据目标对象在该图像的上一帧图像中的位置,在该图像中进行对象跟踪,具体的,请参见图5所示的实施例。图5为本公开实施例提供的另一种对象跟踪方法的流程示意图。请参见图5,该方法可以包括:S501、判断第一图像是否为视频中的第一帧图像。若是,则执行S502。若否,则执行S506。S502、将表示第一图像的数据和表示目标对象的数据输入至识别模型,以得到至少两个对象区域。其中,每组位置信息包括至少两个点的位置信息。可选的,表示第一图像的数据可以为第一图像本身,也可以为对第一图像进行处理后的图像。对第一图像进行处理后的图像可以为第一图像的灰度图像、对第一图像进行剪裁后的图像、对第一图像进行旋转后的图像等。可选的,表示目标对象的数据可以为目标对象的图像、目标对象的类型等。识别模型为对多组样本进行学习得到的。其中,每组样本包括样本图像、样本目标对象和在样本图像中检测到的至少两个样本对象区域,样本对象区域中包括的样本对象与样本目标对象的类型相同。在每组样本中,样本对象区域可以为人工标注的。在训练识别模型时,可以将标识样本图像的数据和表示样本目标对象的数据输入至识别模型,识别模型可以输出至少两个对象区域,通过识别模型对识别模型输出的至少两个对象区域和至少两个样本数据区域进行反向学习,直至识别模型收敛时,学习得到识别模型。在上述根据多组样本训练识别模型的过程中,一个样本图像中包括至少两个样本对象区域,可以根据每个样本区域确定样本图像为正样本或者负样本,增多了判断样本图像为正样本或者负样本的依据,提高样本的利用率。可选的,可以设置识别模型输出的对象区域的个数。例如,假设设置识别模型输出的对象区域的个数为N,则识别模型输出N个对象区域。N为大于或等于2的整数。可选的,识别模型的输出可以为至少两组位置信息,相应的,在每组样本中,可以通过至少两组样本位置信息表示至少两个样本对象区域。可选的,若识别模型的输出为至少两组位置信息,则可以根据S501中的方法根据至少两组位置信息确定至少两个对象区域。S503、分别获取每个对象区域中的对象与目标对象的相似度。获取每个对象区域中的对象与目标对象的相似度的过程相同。针对任意一个对象区域,可以将第一图像中该对象区域中的图像与目标对象对应的图像进行匹配,以获取该两个图像之间的相似度,将该两个图像之间的相似度确定为该对象区域中的对象与目标对象的相似度。S504、基于每个对象区域中的对象与目标对象的相似度,在至少两个对象区域中确定目标对象区域。其中,在至少两个对象区域中,目标对象区域中的对象与目标对象的相似度最高。S505、基于目标对象区域的位置,确定目标对象在第一图像中的目标位置。可选的,若目标对象区域的尺寸与目标对象占用第一图像的区域的尺寸的差值小于或等于预设差值时,则可以将目标对象区域的位置确定为目标位置。若目标对象区域的尺寸与目标对象占用第一图像的区域的尺寸的差值大于预设差值时,则可以在目标对象区域中确定所述目标对象所在区域,并将目标对象所在区域在第一图像中的位置确定为目标位置。例如,请参见图3,假设目标对象为对象区域B中的对象,由于对象区域B的尺寸与目标对象占用第一图像的区域的尺寸的差值小于预设差值,则可以将对象区域B的位置确定为目标位置。例如,请参见图3,假设目标对象为对象区域C中的对象,由于对象区域C的尺寸与目标对象占用第一图像的区域的尺寸的差值小于预设差值,则可以将对象区域C的位置确定为目标位置。例如,请参见图3,假设目标对象为对象区域A中的对象,由于对象区域A的尺寸与目标对象占用第一图像的区域的尺寸的差值大于预设差值,则可以在对象区域A中确定目标对象所在区域,并将目标对象所在区域在第一图像中的位置确定为目标位置。S506、获取第二参考区域,第二参考区域为目标对象在第二图像中的位置所对应的区域。其中,第二图像为第一图像的前一帧图像。可选的,可以获取目标对象在第二图像中的目标位置,并将目标对象在第二图像中的目标位置对应的区域确定为第二参考区域。S507、对第二参考区域进行扩充处理,得到第一参考区域。其中,第一参考区域包括第二参考区域,第一参考区域的尺寸大于第二参考区域的尺寸。可选的,可以对第二参考区域向第二参考区域的每个方向均进行扩充,以得到第一参考区域。例如,当第二参考区域为矩形区域时,可以将第二参考区域向四个方向均进行扩充,以得到第一参考区域。S508、在第一图像的第一参考区域中进行对象检测。例如,可以在第一参考区域中进行图像识别,以检测第一参考区域中是否包括目标对象。S509、判断在第一参考区域中是否检测到目标对象。若是,则执行S510。若否,则执行S502。可选的,若第一参考区域中存在一个对象与目标对象的相似度大于预设相似度,则确定在第一参考区域中检测到目标对象,否则,则确定在第一参考区域中未检测到目标对象。S510、根据第一参考区域,确定目标对象在第一图像中的目标位置。可选的,可以先确定目标对象在第一参考区域的位置,并根据目标对象在第一参考区域的位置,确定目标对象在第一图像中的目标位置。在图5所示的实施例中,当第一图像为视频中的第一帧图像时,可以通过图2实施例所示的方法,检测目标对象在第一图像中的位置,进而提高对象跟踪的精确度。当第一图像不是视频中的第一帧图像时,可以根据目标对象在第二图像第一图像的上一帧图像中的位置,确定目标对象在第一图像中的位置,这样,不但可以提高跟踪的精确度,还可以提高跟踪效率。下面,结合图6A-图6C,通过具体示例,对上述方法实施例所示对象跟踪方法进行详细说明。图6A为本公开实施例提供的一种对象跟踪示意图。图6B为本公开实施例提供的另一种对象跟踪示意图。图6C为本公开实施例提供的又一种对象跟踪示意图。假设跟踪的目标对象为一个小女孩。请参见图6A,在处理视频中的第一帧图像时,可以将表示第一帧图像的数据输入至识别模型,识别模型可以输出三个对象区域,三个对象区域分别为对象区域A、对象区域B和对象区域C。则可以分别将对象区域A、对象区域B和对象区域C中的图像与预设的小女孩的图像进行匹配,以获取每个对象区域中的图像与小女孩的图像的相似度,假设对象区域A中的图像与小女孩的图像的相似度最高,则将对象区域A确定为目标对象区域,并将对象区域A在第一帧图像中的位置确定为目标对象在第一帧图像中的位置。请参见图6B,在处理视频中的第二帧图像时,先获取目标对象在第一帧图像中的位置,并根据目标对象在第一帧图像中的位置,在第二帧图像中确定第二参考区域A,对第二参考区域A进行扩充处理,得到第一参考区域A1,第一参考区域A1覆盖第二参考区域A。在第一参考区域A1中进行对象识别,假设在第一参考区域A1的区域A2中识别到目标对象,则将区域A2在第一图像中的位置确定为目标对象在第一图像中的位置。请参见图6C,在处理视频中的第三帧图像时,先获取目标对象在第二帧图像中的位置,并根据目标对象在第二帧图像中的位置,在第三帧图像中确定第二参考区域A2,对第二参考区域A2进行扩充处理,得到第一参考区域A3,第一参考区域A3覆盖第二参考区域A2。在第一参考区域A3中进行对象识别,由于第一参考区域A3中不包括目标对象,则在第一参考区域中未识别到目标对象。则将表示第三帧图像的数据输入至识别模型,识别模型可以输出三个对象区域,三个对象区域分别为对象区域A4、对象区域B2和对象区域C2。则可以分别将对象区域A4、对象区域B2和对象区域C2中的图像与预设的小女孩的图像进行匹配,以获取每个对象区域中的图像与小女孩的图像的相似度,假设对象区域A4中的图像与小女孩的图像的相似度最高,则将对象区域A4确定为目标对象区域,并将对象区域A4在第三帧图像中的位置确定为目标对象在第三帧图像中的位置。针对视频中的其它帧图像,可以参见可以第二帧图像和第三帧图像的处理过程,此处不再进行赘述。图7为本公开实施例提供的一种对象跟踪装置的结构示意图。请参见图7,该对象跟踪装置10可以包括检测模块11和确定模块12,其中,所述检测模块11用于,根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;所述确定模块12用于,在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。本公开实施例提供的对象跟踪装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此次不再进行赘述。在一种可能的实施方式中,所述检测模块11具体用于:将表示所述第一图像的数据和表示所述目标对象的数据输入至识别模型,以得到所述至少两个对象区域;其中,所述识别模型为对多组样本进行学习得到的,每组样本包括样本图像、样本目标对象和在所述样本图像中检测到的至少两个样本对象区域,所述样本对象区域中包括的样本对象与所述样本目标对象的类型相同。在一种可能的实施方式中,所述检测模块11具体用于:在所述第一图像中确定至少两组位置信息,每组位置信息包括至少两个点的位置信息;基于所述至少两组位置信息确定所述至少两个对象区域。在一种可能的实施方式中,所述确定模块12具体用于:分别获取每个对象区域中的对象与所述目标对象的相似度;基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,所述确定模块12具体用于:基于每个对象区域中的对象与所述目标对象的相似度,在所述至少两个对象区域中确定目标对象区域;其中,在所述至少两个对象区域中,所述目标对象区域中的对象与所述目标对象的相似度最大;基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置。在一种可能的实施方式中,所述确定模块12具体用于:将所述目标对象区域在所述第一图像中的位置确定为所述目标位置;或者,在所述目标对象区域中确定所述目标对象所在区域,并将所述目标对象所在区域在所述第一图像中的位置确定为所述目标位置。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像。在一种可能的实施方式中,所述第一图像为视频中的第一帧图像之后的图像;所述检测模块11具体用于:在所述第一图像的第一参考区域中进行对象检测,若在所述第一参考区域中未检测到所述目标对象时,在第一图像中检测至少两个对象区域;其中,所述第一参考区域为第二图像中包括所述目标对象的区域,所述第二图像为所述第一图像的前一帧图像。图8为本公开实施例提供的另一种对象跟踪装置的结构示意图。在图7所示实施例的基础上,请参见图8,对象跟踪装置10还包括获取模块13和扩充模块14,其中,所述获取模块13用于,在所述检测模块在所述第一图像的第一参考区域中进行对象检测之前,获取第二参考区域,所述第二参考区域为所述目标对象在所述第二图像中的位置所对应的区域;所述扩充模块14具体用于,对所述第二参考区域进行扩充处理,得到所述第一参考区域,所述第一参考区域包括所述第二参考区域,所述第一参考区域的尺寸大于所述第二参考区域的尺寸。在一种可能的实施方式中,所述至少两个对象区域为所述第一图像中包括第一类型的对象的所有区域;所述第一类型为所述目标对象的类型。图9为本公开实施例提供的电子设备的结构示意图。电子设备20可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理PersonalDigitalAssistant,简称PDA、平板电脑PortableAndroidDevice,简称PAD、便携式多媒体播放器PortableMediaPlayer,简称PMP、车载终端例如车载导航终端等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。请参见图9,电子设备20可以包括处理装置例如中央处理器、图形处理器等21,其可以根据存储在只读存储器ReadOnlyMemory,简称ROM22中的程序或者从存储装置28加载到随机访问存储器RandomAccessMemory,简称RAM23中的程序而执行各种适当的动作和处理。在RAM23中,还存储有电子设备20操作所需的各种程序和数据。处理装置21、ROM22以及RAM23通过总线24彼此相连。输入输出IO接口25也连接至总线24。通常,以下装置可以连接至IO接口25:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置26;包括例如液晶显示器LiquidCrystalDisplay,简称LCD、扬声器、振动器等的输出装置27;包括例如磁带、硬盘等的存储装置28;以及通信装置29。通信装置29可以允许电子设备20与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备20,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置29从网络上被下载和安装,或者从存储装置28被安装,或者从ROM22被安装。在该计算机程序被处理装置21执行时,执行本公开实施例的方法中限定的上述功能。需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF射频等等,或者上述的任意合适的组合。上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网LocalAreaNetwork,简称LAN或广域网WideAreaNetwork,简称WAN—连接到用户计算机,或者,可以连接到外部计算机例如利用因特网服务提供商来通过因特网连接。附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和或流程图中的每个方框、以及框图和或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。最后应说明的是:以上各实施例仅用以说明本公开实施例的技术方案,而非对其限制;尽管参照前述各实施例对本公开实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开实施例方案的范围。

权利要求:1.一种对象跟踪方法,其特征在于,包括:根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。2.根据权利要求1所述的方法,其特征在于,在第一图像中检测至少两个对象区域,包括:将表示所述第一图像的数据和表示所述目标对象的数据输入至识别模型,以得到所述至少两个对象区域;其中,所述识别模型为对多组样本进行学习得到的,每组样本包括样本图像、样本目标对象和在所述样本图像中检测到的至少两个样本对象区域,所述样本对象区域中包括的样本对象与所述样本目标对象的类型相同。3.根据权利要求1或2所述的方法,其特征在于,在第一图像中检测至少两个对象区域,包括:在所述第一图像中确定至少两组位置信息,每组位置信息包括至少两个点的位置信息;基于所述至少两组位置信息确定所述至少两个对象区域。4.根据权利要求1-3任一项所述的方法,其特征在于,在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置,包括:分别获取每个对象区域中的对象与所述目标对象的相似度;基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置。5.根据权利要求4所述的方法,其特征在于,基于每个对象区域中的对象与所述目标对象的相似度,确定所述目标对象在所述第一图像中的目标位置,包括:基于每个对象区域中的对象与所述目标对象的相似度,在所述至少两个对象区域中确定目标对象区域;其中,在所述至少两个对象区域中,所述目标对象区域中的对象与所述目标对象的相似度最大;基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置。6.根据权利要求5所述的方法,其特征在于,基于所述目标对象区域的位置,确定所述目标对象在所述第一图像中的目标位置,包括:将所述目标对象区域在所述第一图像中的位置确定为所述目标位置;或者,在所述目标对象区域中确定所述目标对象所在区域,并将所述目标对象所在区域在所述第一图像中的位置确定为所述目标位置。7.根据权利要求1-6任一项所述的方法,其特征在于,所述第一图像为视频中的第一帧图像。8.根据权利要求1-6任一项所述的方法,其特征在于,所述第一图像为视频中的第一帧图像之后的图像;在第一图像中检测至少两个对象区域,包括:在所述第一图像的第一参考区域中进行对象检测,若在所述第一参考区域中未检测到所述目标对象时,在第一图像中检测至少两个对象区域;其中,所述第一参考区域为第二图像中包括所述目标对象的区域,所述第二图像为所述第一图像的前一帧图像。9.根据权利要求8所述的方法,其特征在于,在所述第一图像的第一参考区域中进行对象检测之前,还包括:获取第二参考区域,所述第二参考区域为所述目标对象在所述第二图像中的位置所对应的区域;对所述第二参考区域进行扩充处理,得到所述第一参考区域,所述第一参考区域包括所述第二参考区域,所述第一参考区域的尺寸大于所述第二参考区域的尺寸。10.一种对象跟踪装置,其特征在于,包括检测模块和确定模块,其中,所述检测模块用于,根据跟踪的目标对象的类型,在第一图像中检测至少两个对象区域;所述目标对象的类型为第一类型,所述对象区域中包括第一类型的对象,或者,所述对象区域中包括第一类型的对象中的一部分;所述确定模块用于,在所述至少两个对象区域中检测所述目标对象,以确定所述目标对象在所述第一图像中的目标位置。11.一种电子设备,其特征在于,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-9任一项所述的对象跟踪方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-9任一项所述的对象跟踪方法。

百度查询: 北京字节跳动网络技术有限公司 对象跟踪方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。