【发明授权】一种镜头类型识别方法及装置_北京奇艺世纪科技有限公司_201811327200.2 

申请/专利权人:北京奇艺世纪科技有限公司

申请日:2018-11-08

发明/设计人:刘思阳

公开(公告)日:2021-04-09

代理机构:北京柏杉松知识产权代理事务所(普通合伙)

公开(公告)号:CN109447022B

代理人:丁芸;项京

主分类号:G06K9/00(20060101)

地址:100080 北京市海淀区海淀北一街2号鸿城拓展大厦10、11层

分类号:G06K9/00(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.09#授权;2019.04.02#实质审查的生效;2019.03.08#公开

摘要:本发明实施例提供了一种镜头类型识别方法及装置,其中,所述方法包括:对视频数据进行均匀抽帧,得到K帧图像,所述K大于或等于2;判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定所述视频数据为固定机位视频;从所述K帧图像中抽任一帧图像,作为待识别图像;确定所述待识别图像的镜头类型;将所述待识别图像的镜头类型,作为所述视频数据中的每一帧图像的镜头类型。

主权项:1.一种镜头类型识别方法,其特征在于,所述方法包括:对视频数据进行均匀抽帧,得到K帧图像,所述K大于或等于2;判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定所述视频数据为固定机位视频;从所述K帧图像中抽任一帧图像,作为待识别图像;确定所述待识别图像的镜头类型;将所述待识别图像的镜头类型,作为所述视频数据中的每一帧图像的镜头类型;若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化,则对所述视频数据进行均匀抽帧,得到P帧图像,所述P大于所述K;判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化;将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型,确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型;将镜头运动方式发生变化的相邻两帧图像中第二本帧图像,作为待识别图像;确定所述待识别图像的镜头类型;基于所有待识别图像的镜头类型及所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型,确定所述视频数据中的每一帧图像的镜头类型。

全文数据:一种镜头类型识别方法及装置技术领域本发明涉及视频处理领域,特别是涉及一种镜头类型识别方法及装置。背景技术目前影视剧等视频节目在录制过程中会因为不同摄影机机位及不同摄影角度等因素,产生大量的视频源素材。一般在初级剪辑师在剪辑视频源素材前,需要先对视频源素材进行分析,在视频源素材的图像上打上镜头类型的标签,这样初级剪辑师使用已打上镜头类型的标签的图像进行初步剪辑,可以提升初级剪辑师的工作效率,节约时间与人员成本。上述初步剪辑是对视频源素材进行初步的选择,然后进行剪辑。这个初步剪辑的过程是,首先由初步剪辑师浏览视频源素材;然后再由初步剪辑师初步选择出无用的视频片段,比如和视频节目所要展现的内容无关的视频片段;并将所有视频源素材中无用的视频片段减掉,得到剩下视频片段,作为后期需要精剪的视频片段,最后由初步剪辑师确定出需要精剪的视频片段的镜头类型;由初步剪辑师按照需要精剪的视频片段各自的镜头类型,对需要精剪的视频片段标注与镜头类型对应的标签。由于影视剧等视频节目在录制过程中,可能在一个场景中会有几十个甚至上百个摄影机机位,每个摄影机机位的拍摄一小时的视频片段,会产生上百小时的视频源素材,这样初步剪辑师要浏览上百小时的视频片段,进而确地出需要精剪的视频片段的镜头类型,工作量大,工作效率低,从而浪费大量的时间成本和人工成本。发明内容本发明实施例的目的在于提供一种镜头类型识别方法及装置,用以解决现有技术中需要精剪的视频片段的镜头类型,工作量大,工作效率低,从而浪费大量的时间成本和人工成本的技术问题。具体技术方案如下:第一方面,本发明实施提供了一种镜头类型识别方法,所述方法包括:对视频数据进行均匀抽帧,得到K帧图像,所述K大于或等于2;判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定所述视频数据为固定机位视频;从所述K帧图像中抽任一帧图像,作为待识别图像;确定所述待识别图像的镜头类型;将所述待识别图像的镜头类型,作为所述视频数据中的每一帧图像的镜头类型。进一步的,所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化,包括:计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数;若所述第一帧间变化系数小于预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式未发生变化;若所述第一帧间变化系数不小于所述预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式发生变化。进一步的,所述计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数,包括:获取所述第一本帧图像的第一选区和所述第一对比帧图像的第二选区,所述第一选区是沿所述第一本帧图像的边缘选择的,且所述第一选区的面积小于所述第一本帧图像的面积,所述第一选区与所述第二选区对应;分别对所述第一选区及所述第二选区进行均匀区块划分,得到所述第一本帧图像的两个以上第一区块以及所述第一对比帧图像的两个以上第二区块,所述第一区块与所述第二区块相对应;分别对所述第一区块及所述第二区块进行特征提取,得到所述第一区块的特征点集以及所述第二区块的特征点集;将所述第一区块中特征点集与所述第二区块中特征点集相匹配的特征点,作为关联特征点对集;计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式;利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数。进一步的,所述计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式,包括:计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的仿射变换矩阵;所述利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数,包括:将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数,所述仿射变换矩阵的反映变化的元素与所述预设变化系数呈正相关;将各第一选区的所有第一区块相对于,所述所有第一区块对应的第二区块的变化系数之和,确定为各第一选区相对于所述第二选区的变化系数;将所有第一选区相对于所述第二选区的变化系数之和,与所有第一选区相对于所述第二选区中的最大变化系数之差,确定为所述第一本帧图像相对于第一对比帧图像的第一帧间变化系数。进一步的,所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为:其中,所述为第k个第一选区的第i行第j列的第一区块相对于,所述第一区块对应的第二区块的变化系数,所述σ表示映射函数,将|-1|映射到处于0,1的取值范围内,将映射到处于0,1的取值范围内,Θ表示第二调整系数,00。在可能的实现方式中,一次判断所有的仿射变换矩阵,可以提高仿射变换矩阵的判断效率,使得相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式更加准确。结合上述图1、图2、图3、图5、图6及图7,如果关联特征点对集的总数较少时,可能说明对比帧图像和本帧图像可能并不是相互关联的图像,这样影响本帧图像相对于对比帧图像的镜头运动方式的准确性,因此为了解决这个问题,本发明实施例还提供一种实现方式,在上述图4的步骤125之前,所述方法还包括:判断所述关联特征点对集是否大于第一预设数量;如果关联特征点对集大于第一预设数量,则执行步骤125的步骤。由于关联特征点对集是本帧图像的特征点集相对于对比帧图像的特征点集相匹配得到的,后续完成本帧图像相对于对比帧图像的镜头运动方式的确定,因此关联特征点对集较多时,说明本帧图像和对比帧图像之间更加相似,这样本帧图像相对于对比帧图像的镜头运动方式的确定会更加准确。上述预设数量可以根据用户需要进行设置,比如,预设数量大于或等于10。示例性的,预设数量可以为20,预设数量也可以为30,任何能够提高本帧图像相对于所述对比帧图像的镜头运动方式准确性的取值,均属于本发明实施例的保护范围,在此不一一举例。本发明实施例的实现过程中,关联特征点对集较多时,说明K帧图像中每相邻两帧图像中本帧图像和对比帧图像更加相似,这样K帧图像中每相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式的确定会更加准确。结合上述图1、图2、图3、图5、图6及图7,本发明还提供一种实现方式,在步骤150之后,所述方法还包括:对待识别图像的镜头类型进行镜头标签序列数据平滑;转码镜头标签序列数据平滑后的镜头类型。其中,此处的转码所述镜头标签序列数据平滑后的镜头类型的格式为JSONJavaScriptObjectNotation,JSON是一种轻量级的数据交换格式吧,后期方便使用。结合图1,参见图9,本发明实施例的具体实现流程,进行如下举例说明:步骤200,获取视频数据,视频数据包括:所有图像,图像的帧总数total_frames,每秒传输帧数fps,跳帧数skip_frame,初始化当前帧位置current_frame=0。步骤210,对视频数据进行均匀抽帧,得到K帧图像,该K大于或等于2。步骤220,判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化。步骤230,若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定视频数据为固定机位视频。步骤240,从所述K帧图像中抽任一帧图像,作为待识别图像。步骤250,确定待识别图像的镜头类型。步骤260,将待识别图像的镜头类型,作为视频数据中的每一帧图像的镜头类型。步骤270,若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化,则对视频数据进行均匀抽帧,得到P帧图像,P大于K。步骤280,判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化。步骤290,保持镜头类型,进一步包括:若P帧图像中存在相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式未发生变化,则将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型,确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型。步骤300,重新识别人脸,进一步包括:若P帧图像中存在相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式发生变化,则将镜头运动方式发生变化的相邻两帧图像中第二本帧图像,作为待识别图像current_frame;判断利用特征点识别网络,从待识别图像中的人脸的特征点中是否识别特征点,其中,所述待识别图像current_frame调整为W*H的图像。步骤310,若利用特征点识别网络,从待识别图像中的人脸的特征点中能够识别特征点,则利用特征点,计算待识别图像的镜头类型,进一步包括:利用特征点识别网络,从待识别图像中识别人脸的特征点;计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离;将特征距离与所述待识别图像的图画高度的第一比值;从预设比值区间与镜头类型的对应关系中,找到第一比值所处的预设比值区间,确定第一比值所处的预设比值区间对应的镜头类型;将第一比值所处的预设比值区间对应的镜头类型,确定为待识别图像的镜头类型。步骤320,若利用特征点识别网络,从待识别图像中未获得人脸的识别特征点,则利用镜头人体识别网络,计算待识别图像的镜头类型,进一步包括:利用镜头人体识别网络,从待识别图像中检测人体目标,得到人体目标的检测框;计算检测框的高度与待识别图像的图画高度的第二比值;从预设比值区间与镜头类型的对应关系中,找到第二比值所处的预设比值区间,确定第二比值所处的预设比值区间对应的镜头类型;将第二比值所处的预设比值区间对应的镜头类型,确定为待识别图像的镜头类型。步骤330,判断是否处理完抽取的所有帧图像,如果没有处理完抽取的所有帧图像,则返回继续执行步骤270,直至处理完抽取的所有帧图像;进一步包括:如果当前帧位置current_frame小于图像的帧总数total_frames,则current_frame=current_frame+skip_frame,则返回步骤270。步骤340,如果处理完抽取的所有帧图像,则对待识别图像的镜头类型进行镜头标签序列数据平滑;转码镜头标签序列数据平滑后的镜头类型。上述步骤210至步骤260分别与步骤110至步骤160相同,所限定的内容相同,在此不再赘述。步骤270和步骤280,分别与步骤131至步骤132相同,所限定的内容相同,在此不再赘述。步骤290和步骤300,分别与步骤133至步骤134相同,所限定的内容相同,在此不再赘述。步骤310包含步骤1511至步骤1515,步骤310的内容与步骤1511至步骤1515的内容相同,在此不再赘述。步骤320包含步骤1521至步骤1526,步骤320的内容与步骤1521至步骤1526的内容相同,在此不再赘述。本发明实施例中,在若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化,则说明视频数据的镜头类型可能存在多镜头类型,那么就需要重新均匀抽帧,重新抽取得到P帧图像的数目大于K帧图像的数目,并且重新完成P帧图像的镜头类型的确定,相较于现有技术,不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型,减少镜头类型确定的运算量,提高运算效率,节约计算资源,缩短处理时间;也不需要初步剪辑师浏览上百小时的视频片段,来确定镜头运动方式,从而减少了初步剪辑师的工作量,提高了工作效率。并且,自动确定相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式,节约了人工成本和时间成本。下面继续对本发明实施例提供的镜头类型识别装置进行介绍。参见10所示,图10为本发明实施例的镜头类型识别装置的结构示意图。本发明实施例提供镜头类型识别装置,包括:抽帧模块31,用于对视频数据进行均匀抽帧,得到K帧图像,K大于或等于2;第一判断模块32,用于判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;第一得到模块33,用于若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定视频数据为固定机位视频;第二得到模块34,用于从K帧图像中抽任一帧图像,作为待识别图像;确定待识别图像的镜头类型;第三得到模块35,用于将待识别图像的镜头类型,作为视频数据中的每一帧图像的镜头类型。本发明实施例中,若K帧图像是固定机位视频图像,则说明视频数据中的每一帧图像的镜头类型是同一种镜头类型,那么只需要抽取任一帧图像,只确定一次镜头类型,就可以得到视频数据中的每一帧图像镜头类型,相较于现有技术,不需要人工对视频数据抽到包含有人脸的图像逐帧确定镜头类型,减少镜头类型确定的运算量,提高运算效率,节约计算资源,缩短处理时间;也不需要初步剪辑师浏览上百小时的视频片段,来确定镜头运动方式,从而减少了初步剪辑师的工作量,提高了工作效率。并且,自动确定相邻两帧图像中本帧图像相对于对比帧图像的镜头运动方式,节约了人工成本和时间成本。在一种可能的实现方式中,第一判断模块,用于:计算第一本帧图像相对于第一对比帧图像的第一帧间变化系数;若第一帧间变化系数小于预设变化阈值,则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式未发生变化;若第一帧间变化系数不小于预设变化阈值,则判定K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式发生变化。在一种可能的实现方式中,第一判断模块,用于:获取第一本帧图像的第一选区和第一对比帧图像的第二选区,第一选区是沿第一本帧图像的边缘选择的,且第一选区的面积小于第一本帧图像的面积,第一选区与第二选区对应;分别对第一选区及第二选区进行均匀区块划分,得到第一本帧图像的两个以上第一区块以及第一对比帧图像的两个以上第二区块,第一区块与第二区块相对应;分别对第一区块及第二区块进行特征提取,得到第一区块的特征点集以及第二区块的特征点集;将第一区块中特征点集与第二区块中特征点集相匹配的特征点,作为关联特征点对集;计算关联特征点对集中每个第一区块中特征点集相对于,第一区块对应的第二区块中特征点集的几何变换方式;利用几何变换方式中反映变化的元素的值,计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数。在一种可能的实现方式中,第一判断模块,用于:计算关联特征点对集中每个第一区块中特征点集相对于,第一区块对应的第二区块中特征点集的仿射变换矩阵;利用几何变换方式中反映变化的元素的值,计算得到第一本帧图像相对于第一对比帧图像的第一帧间变化系数,包括:将仿射变换矩阵中反映变化的元素的值,使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算关联特征点对集中每个第一区块相对于,第一区块对应的第二区块的变化系数,仿射变换矩阵的反映变化的元素与预设变化系数呈正相关;将各第一选区的所有第一区块相对于,所有第一区块对应的第二区块的变化系数之和,确定为各第一选区相对于第二选区的变化系数;将所有第一选区相对于第二选区的变化系数之和,与所有第一选区相对于第二选区中的最大变化系数之差,确定为第一本帧图像相对于第一对比帧图像的第一帧间变化系数。在一种可能的实现方式中,仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为:其中,为第k个第一选区的第i行第j列的第一区块相对于,第一区块对应的第二区块的变化系数,σ表示映射函数,将|-1|映射到处于0,1的取值范围内,将映射到处于0,1的取值范围内,Θ表示第二调整系数,0Θ1,τ表示第一调整系数,0τ1。在一种可能的实现方式中,装置还包括:第二判断模块,用于在将仿射变换矩阵中反映变化的元素的值,使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算关联特征点对集中每个第一区块相对于,第一区块对应的第二区块的变化系数之前,判断仿射变换矩阵中各个元素的值是否满足预设合法条件,预设合法条件是限定各个元素的值的取值范围;若仿射变换矩阵中各个元素的值满足预设合法条件,则获取仿射变换矩阵中反映变化的元素的值,继续执行将仿射变换矩阵中反映变化的元素的值,使用仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算关联特征点对集中每个第一区块相对于,第一区块对应的第二区块的变化系数的步骤。在一种可能的实现方式中,装置还包括:第三判断模块,用于在计算关联特征点对集中每个第一区块中特征点集相对于,第一区块对应的第二区块中特征点集的几何变换方式之前,判断关联特征点对集是否大于第一预设数量;如果关联特征点对集大于第一预设数量,则执行计算关联特征点对集中每个第一区块中特征点集相对于,第一区块对应的第二区块中特征点集的几何变换方式的步骤。在一种可能的实现方式中,装置还包括:第三判断模块,用于在判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化之后,若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于第一对比帧图像镜头运动方式发生变化,则对视频数据进行均匀抽帧,得到P帧图像,P大于K;判断P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化;将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型,确定为镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型;将镜头运动方式发生变化的相邻两帧图像中第二本帧图像,作为待识别图像;确定待识别图像的镜头类型;基于所有待识别图像的镜头类型及镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型,确定视频数据中的每一帧图像的镜头类型。在一种可能的实现方式中,第二得到模块,用于:利用特征点识别网络,从待识别图像中识别人脸的特征点,特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离;将特征距离与待识别图像的图画高度的第一比值;从预设比值区间与镜头类型的对应关系中,找到第一比值所处的预设比值区间,确定第一比值所处的预设比值区间对应的镜头类型;将第一比值所处的预设比值区间对应的镜头类型,确定为待识别图像的镜头类型。在一种可能的实现方式中,第二得到模块,用于:若利用特征点识别网络,从待识别图像中未获得人脸的特征点,则将待识别图像作为镜头人体识别网络的输入,特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;利用镜头人体识别网络,从待识别图像中检测人体目标,得到人体目标的检测框;计算检测框的高度与待识别图像的图画高度的第二比值;从预设比值区间与镜头类型的对应关系中,找到第二比值所处的预设比值区间,确定第二比值所处的预设比值区间对应的镜头类型;将第二比值所处的预设比值区间对应的镜头类型,确定为待识别图像的镜头类型。参见图11,图11为本发明实施例的电子设备的结构示意图。本发明实施例还提供了一种电子设备,包括处理器41、通信接口42、存储器43和通信总线44,其中,处理器41,通信接口42,存储器43通过通信总线44完成相互间的通信,存储器43,用于存放计算机程序;处理器41,用于执行存储器43上所存放的程序时,实现如下步骤:对视频数据进行均匀抽帧,得到K帧图像,K大于或等于2;判断K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定视频数据为固定机位视频;从K帧图像中抽任一帧图像,作为待识别图像;确定待识别图像的镜头类型;将待识别图像的镜头类型,作为视频数据中的每一帧图像的镜头类型。上述电子设备提到的通信总线可以是外设部件互连标准PeripheralComponentInterconnect,PCI总线或扩展工业标准结构ExtendedIndustryStandardArchitecture,EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器RandomAccessMemory,RAM,也可以包括非易失性存储器Non-VolatileMemory,NVM,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器,包括中央处理器CentralProcessingUnit,CPU、网络处理器NetworkProcessor,NP等;还可以是数字信号处理器DigitalSignalProcessing,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现场可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的镜头类型识别方法。在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的镜头类型识别方法。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线例如同轴电缆、光纤、数字用户线DSL或无线例如红外、无线、微波等方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带、光介质例如,DVD、或者半导体介质例如固态硬盘SolidStateDiskSSD等。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置电子设备存储介质实施例包含指令的计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

权利要求:1.一种镜头类型识别方法,其特征在于,所述方法包括:对视频数据进行均匀抽帧,得到K帧图像,所述K大于或等于2;判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定所述视频数据为固定机位视频;从所述K帧图像中抽任一帧图像,作为待识别图像;确定所述待识别图像的镜头类型;将所述待识别图像的镜头类型,作为所述视频数据中的每一帧图像的镜头类型。2.如权利要求1所述的方法,其特征在于,所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化,包括:计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数;若所述第一帧间变化系数小于预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式未发生变化;若所述第一帧间变化系数不小于所述预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式发生变化。3.如权利要求2所述的方法,其特征在于,所述计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数,包括:获取所述第一本帧图像的第一选区和所述第一对比帧图像的第二选区,所述第一选区是沿所述第一本帧图像的边缘选择的,且所述第一选区的面积小于所述第一本帧图像的面积,所述第一选区与所述第二选区对应;分别对所述第一选区及所述第二选区进行均匀区块划分,得到所述第一本帧图像的两个以上第一区块以及所述第一对比帧图像的两个以上第二区块,所述第一区块与所述第二区块相对应;分别对所述第一区块及所述第二区块进行特征提取,得到所述第一区块的特征点集以及所述第二区块的特征点集;将所述第一区块中特征点集与所述第二区块中特征点集相匹配的特征点,作为关联特征点对集;计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式;利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数。4.如权利要求3所述的方法,其特征在于,所述计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式,包括:计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的仿射变换矩阵;所述利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数,包括:将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数,所述仿射变换矩阵的反映变化的元素与所述预设变化系数呈正相关;将各第一选区的所有第一区块相对于,所述所有第一区块对应的第二区块的变化系数之和,确定为各第一选区相对于所述第二选区的变化系数;将所有第一选区相对于所述第二选区的变化系数之和,与所有第一选区相对于所述第二选区中的最大变化系数之差,确定为所述第一本帧图像相对于第一对比帧图像的第一帧间变化系数。5.如权利要求4所述的方法,其特征在于,所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为:其中,所述为第k个第一选区的第i行第j列的第一区块相对于,所述第一区块对应的第二区块的变化系数,所述σ表示映射函数,将|α-1|映射到处于0,1的取值范围内,将映射到处于0,1的取值范围内,Θ表示第二调整系数,0Θ1,τ表示第一调整系数,0τ1。6.如权利要求4或5所述的方法,其特征在于,在将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数之前,所述方法还包括:判断所述仿射变换矩阵中各个元素的值是否满足预设合法条件,所述预设合法条件是限定各个元素的值的取值范围;若所述仿射变换矩阵中各个元素的值满足预设合法条件,则获取所述仿射变换矩阵中反映变化的元素的值,继续执行将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数的步骤。7.如权利要求3至5任一项所述的方法,其特征在于,在计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式之前,所述方法还包括:判断所述关联特征点对集是否大于第一预设数量;如果所述关联特征点对集大于所述第一预设数量,则执行计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式的步骤。8.如权利要求1所述的方法,其特征在于,在所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于所述第一对比帧图像的镜头运动方式是否发生变化之后,所述方法还包括:若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化,则对所述视频数据进行均匀抽帧,得到P帧图像,所述P大于所述K;判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化;将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型,确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型;将镜头运动方式发生变化的相邻两帧图像中第二本帧图像,作为待识别图像;确定所述待识别图像的镜头类型;基于所有待识别图像的镜头类型及所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型,确定所述视频数据中的每一帧图像的镜头类型。9.如权利要求3、4、5或8所述的方法,其特征在于,所述确定所述待识别图像的镜头类型,包括:利用特征点识别网络,从所述待识别图像中识别人脸的特征点,所述特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离;将所述特征距离与所述待识别图像的图画高度的第一比值;从预设比值区间与镜头类型的对应关系中,找到所述第一比值所处的预设比值区间,确定所述第一比值所处的预设比值区间对应的镜头类型;将所述第一比值所处的预设比值区间对应的镜头类型,确定为所述待识别图像的镜头类型。10.如权利要求3、4、5或8所述的方法,其特征在于,所述确定所述待识别图像的镜头类型,包括:若利用特征点识别网络,从所述待识别图像中未获得人脸的特征点,则将所述待识别图像作为镜头人体识别网络的输入,所述特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;利用所述镜头人体识别网络,从所述待识别图像中检测人体目标,得到人体目标的检测框;计算所述检测框的高度与所述待识别图像的图画高度的第二比值;从预设比值区间与镜头类型的对应关系中,找到所述第二比值所处的预设比值区间,确定所述第二比值所处的预设比值区间对应的镜头类型;将所述第二比值所处的预设比值区间对应的镜头类型,确定为所述待识别图像的镜头类型。11.一种镜头类型识别装置,其特征在于,所述装置包括:抽帧模块,用于对视频数据进行均匀抽帧,得到K帧图像,所述K大于或等于2;第一判断模块,用于判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像的镜头运动方式是否发生变化;第一得到模块,用于若判定所有K帧图像中每相邻两帧图像中第一本帧图像相对于第一对比帧图像镜头运动方式都未发生变化,则确定所述视频数据为固定机位视频;第二得到模块,用于从所述K帧图像中抽任一帧图像,作为待识别图像;确定所述待识别图像的镜头类型;第三得到模块,用于将所述待识别图像的镜头类型,作为所述视频数据中的每一帧图像的镜头类型。12.如权利要求11所述的装置,其特征在于,所述第一判断模块,用于:计算所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数;若所述第一帧间变化系数小于预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式未发生变化;若所述第一帧间变化系数不小于所述预设变化阈值,则判定所述K帧图像中每相邻两帧图像中所述第一本帧图像相对于所述第一对比帧图像的镜头运动方式发生变化。13.如权利要求12所述的装置,其特征在于,所述第一判断模块,用于:获取所述第一本帧图像的第一选区和所述第一对比帧图像的第二选区,所述第一选区是沿所述第一本帧图像的边缘选择的,且所述第一选区的面积小于所述第一本帧图像的面积,所述第一选区与所述第二选区对应;分别对所述第一选区及所述第二选区进行均匀区块划分,得到所述第一本帧图像的两个以上第一区块以及所述第一对比帧图像的两个以上第二区块,所述第一区块与所述第二区块相对应;分别对所述第一区块及所述第二区块进行特征提取,得到所述第一区块的特征点集以及所述第二区块的特征点集;将所述第一区块中特征点集与所述第二区块中特征点集相匹配的特征点,作为关联特征点对集;计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式;利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数。14.如权利要求13所述的装置,其特征在于,所述第一判断模块,用于:计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的仿射变换矩阵;所述利用所述几何变换方式中反映变化的元素的值,计算得到所述第一本帧图像相对于所述第一对比帧图像的第一帧间变化系数,包括:将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数,所述仿射变换矩阵的反映变化的元素与所述预设变化系数呈正相关;将各第一选区的所有第一区块相对于,所述所有第一区块对应的第二区块的变化系数之和,确定为各第一选区相对于所述第二选区的变化系数;将所有第一选区相对于所述第二选区的变化系数之和,与所有第一选区相对于所述第二选区中的最大变化系数之差,确定为所述第一本帧图像相对于第一对比帧图像的第一帧间变化系数。15.如权利要求14所述的装置,其特征在于,所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系为:其中,所述为第k个第一选区的第i行第j列的第一区块相对于,所述第一区块对应的第二区块的变化系数,所述σ表示映射函数,将|α-1|映射到处于0,1的取值范围内,将映射到处于0,1的取值范围内,Θ表示第二调整系数,0Θ1,τ表示第一调整系数,0τ1。16.如权利要求14或15所述的装置,其特征在于,所述装置还包括:第二判断模块,用于在将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数之前,判断所述仿射变换矩阵中各个元素的值是否满足预设合法条件,所述预设合法条件是限定各个元素的值的取值范围;若所述仿射变换矩阵中各个元素的值满足预设合法条件,则获取所述仿射变换矩阵中反映变化的元素的值,继续执行将所述仿射变换矩阵中反映变化的元素的值,使用所述仿射变换矩阵中反映变化的元素与预设变化系数之间的运算关系,计算所述关联特征点对集中每个所述第一区块相对于,所述第一区块对应的第二区块的变化系数的步骤。17.如权利要求13至15任一项所述的装置,其特征在于,所述装置还包括:第三判断模块,用于在计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式之前,判断所述关联特征点对集是否大于第一预设数量;如果所述关联特征点对集大于所述第一预设数量,则执行计算所述关联特征点对集中每个所述第一区块中特征点集相对于,所述第一区块对应的第二区块中特征点集的几何变换方式的步骤。18.如权利要求11所述的装置,其特征在于,所述装置还包括:第三判断模块,用于在所述判断所述K帧图像中每相邻两帧图像中第一本帧图像相对于所述第一对比帧图像的镜头运动方式是否发生变化之后,若所有K帧图像中每相邻两帧图像中至少一对相邻第一本帧图像相对于所述第一对比帧图像镜头运动方式发生变化,则对所述视频数据进行均匀抽帧,得到P帧图像,所述P大于所述K;判断所述P帧图像中每相邻两帧图像中第二本帧图像相对于第二对比帧图像的镜头运动方式是否发生变化;将镜头运动方式未发生变化的相邻两帧图像中第二对比帧图像的镜头类型,确定为所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型;将镜头运动方式发生变化的相邻两帧图像中第二本帧图像,作为待识别图像;确定所述待识别图像的镜头类型;基于所有待识别图像的镜头类型及所述镜头运动方式未发生变化的相邻两帧图像中第二本帧图像的镜头类型,确定所述视频数据中的每一帧图像的镜头类型。19.如权利要求13、14、15或18所述的装置,其特征在于,所述第二得到模块,用于:利用特征点识别网络,从所述待识别图像中识别人脸的特征点,所述特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;计算两个眼球特征点的中点与两个嘴角特征点的中点之间的特征距离;将所述特征距离与所述待识别图像的图画高度的第一比值;从预设比值区间与镜头类型的对应关系中,找到所述第一比值所处的预设比值区间,确定所述第一比值所处的预设比值区间对应的镜头类型;将所述第一比值所处的预设比值区间对应的镜头类型,确定为所述待识别图像的镜头类型。20.如权利要求13、14、15或18所述的装置,其特征在于,所述第二得到模块,用于:若利用特征点识别网络,从所述待识别图像中未获得人脸的特征点,则将所述待识别图像作为镜头人体识别网络的输入,所述特征点包含:两个眼球特征点、两个嘴角特征点及一个鼻尖特征点中一种或多种;利用所述镜头人体识别网络,从所述待识别图像中检测人体目标,得到人体目标的检测框;计算所述检测框的高度与所述待识别图像的图画高度的第二比值;从预设比值区间与镜头类型的对应关系中,找到所述第二比值所处的预设比值区间,确定所述第二比值所处的预设比值区间对应的镜头类型;将所述第二比值所处的预设比值区间对应的镜头类型,确定为所述待识别图像的镜头类型。21.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤。

百度查询: 北京奇艺世纪科技有限公司 一种镜头类型识别方法及装置