买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于跨域学习的跨视角动作识别方法_天津大学_201710330526.X 

申请/专利权人:天津大学

申请日:2017-05-11

公开(公告)日:2020-06-26

公开(公告)号:CN107203745B

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101)

优先权:

专利状态码:失效-未缴年费专利权终止

法律状态:2023.05.16#未缴年费专利权终止;2017.10.27#实质审查的生效;2017.09.26#公开

摘要:本发明公开了一种基于跨域学习的跨视角动作识别方法,所述方法包括以下步骤:对目标域和源域的视频数据分别提取视觉特征,采用视觉词袋模型作为视觉表示,形成原始特征向量集;通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中,将原始特征和变换特征结合,分别形成目标域和源域新的特征映射函数,构成新的特征向量集;采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器;利用分类器对待测视频进行动作类别的判定,得到最终的识别结果。本发明避免了传统动作识别场景中对摄像机空间位置信息的依赖,应用两个变换矩阵使不同的视角域映射到一个共同的特征空间,有效地提高了跨视角动作识别的准确率。

主权项:1.一种基于跨域学习的跨视角动作识别方法,其特征在于,所述方法包括以下步骤:对目标域和源域的视频数据分别提取视觉特征,采用视觉词袋模型作为视觉表示,形成原始特征向量集;通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中,将原始特征和变换特征结合,分别形成目标域和源域新的特征映射函数,构成新的特征向量集;采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器;利用分类器对待测视频进行动作类别的判定,得到最终的识别结果;其中,采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器具体为:通过最小化标准支持向量机的结构风险函数,提出如下的公式学习变换矩阵P和Q以及权重向量w: 其中,和分别是样本和的标签,且C>0是调节训练样本损失的正则化参数;预定义λq,λp>0用以分别控制P和Q的复杂度,b,为SVM训练函数自带的参数;φs和φt为增强特征映射函数;引入双变量和通过设置公式1中关于w,b,的拉格朗日导数等于零,获得KKT条件: 其中,为源域样本;通过KKT条件,得到如下的替代优化问题: 其中,α是对偶变量的向量,y是标签向量,分别包括目标标签和源标签,KP,Q为与P、Q有关的矩阵,为所有元素为1的ns+nt×1维列向量,为所有元素为0的ns+nt×1维列向量;定义In为n×n单位矩阵,In×m为所有元素为零的n×m维矩阵;定义为所有元素为0或1的n×1维列向量;不等式a≤b意味着对于i=1,...,n.有ai≤bi;此外,表示矢量a和y之间的逐元素积;由式2导出的核矩阵KP,Q如下: 其中,为ns×ns单位矩阵,为nt×nt单位矩阵;通过H的引入,将方程式2中的优化问题转换如下最后拟定的方法: 其中,KH为与中间变量H有关的矩阵,traceH为KH的迹; λ=λp+λq;通过上述处理,通过迭代更新α和H来解决上述的方程3;在获得解α和H之后,可通过使用以下决策函数作为最终的分类器来预测目标域中的任何测试样本: 其中,和kxi,xj=φxi'φxj是两个数据样本xi和xj的预定义核函数;βs和βt的取值根据需要设定。

全文数据:一种基于跨域学习的跨视角动作识别方法技术领域[0001]本发明涉及跨视角动作识别领域,尤其涉及一种基于跨域学习的跨视角动作识别方法。背景技术[0002]动作识别是计算机视觉领域的一个研究热点,其中人体动作识别已经吸引了越来越多的关注,它在视频监控,异常事件监测和人机交互中起着重要作用。近年来已有很多优秀的方法成功应用在单视图人类行为数据集[1,2,3]中,但是现有的动作识别方法大多基于同一视角的假设,在固定的视角场景中提取动作特征并构建识别模型。而在真实的应用场景中,由于摄像机角度和位置的变化,同一动作的人体形态和运动轨迹均会发生显著的变化,相应的数据分布和所在的特征空间也会发生改变。因此,在多个视角中进行跨视角的动作识别仍然是一个具有挑战性的课题。[0003]近年来,许多研究人员开始关注跨视角人类行为识别。人类行为是一种时空模型,所以存在两个重要的问题,分别是鲁棒的时空特征和视觉模型的建模。[0004]在特征表示方面,很多研究方法都是基于局部兴趣点的。时空显著性的流行特征是时空兴趣点(SpacetimeInterestPoints,STIP特征[4],它使用导向光流直方图HistogramsofOrientedOpticalFlow,H0F[5]和方向梯度直方图(HistogramofOrientedGradient,HOG[6]的局部梯度和光流的分布;Shao等人[7]提出了隐藏和嵌入动作识别不同的特征表示,用不同权重对不同特征进行编码以实现低维和鲁棒的特征,从而提高识别的准确性;Rao等人[8]提出使用2D帧的时空结构捕获动作的戏剧性变化,这种方法需要可靠的身体关节检测和跟踪,这在计算机视觉中仍然很困难;最近,Zheng等人[9]提出通过稀疏编码提取高级特征以减少不同视图之间的特征差异。[0005]在模型学习方面,传统的跨域学习方法是基于目标域和辅助域具有相同分布的假设,然而这个假设在多视图人类行为识别中是不现实的。Wang等人[1]使用重新加权的方法重新定义训练样本进行学习,减少两个领域之间的特征差距,同时应用自学方法寻找新的特征表示,以提高目标域的学习表现;Xu等人[11]提出了一种改良的域转移支持向量机Domaintransfersupportvectormachine,DTSVM学习方法,它利用两个域之间的距离矩阵作为训练分类器的惩罚函数,在网络视频概念检测中表现出很好的性能;Zhu等人[12]提出了一种跨域字典弱监督学习方法,利用其他视域的弱标记数据作为辅助源数据,以增强原始学习系统,提高识别性能。[0006]跨视角人体动作识别目前需要解决的两个关键问题是:[0007]1采用鲁棒的特征描述符来表征来自不同视角的人体动作;[0008]2采用优秀的机器学习方法,减少从不同视图提取的动作特征之间的差异。发明内容[0009]本发明提供了一种基于跨域学习的跨视角动作识别方法,本发明避免了传统动作识别场景中对摄像机空间位置信息的依赖,应用两个变换矩阵使不同的视角域映射到一个共同的特征空间,有效地提高了跨视角动作识别的准确率,详见下文描述:[0010]一种基于跨域学习的跨视角动作识别方法,所述方法包括以下步骤:[0011]对目标域和源域的视频数据分别提取视觉特征,采用视觉词袋模型作为视觉表示,形成原始特征向量集;[0012]通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中,将原始特征和变换特征结合,分别形成目标域和源域新的特征映射函数,构成新的特征向量集;[0013]采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器;利用分类器对待测视频进行动作类别的判定,得到最终的识别结果。[0014]其中,所述方法还包括:[0015]采集不同视角下的人体动作视频数据,构建多视角的人体动作数据集,从人体动作数据集中选择一个视角作为目标域,其他数据作为源域。[0016]其中,所述采用视觉词袋模型作为视觉表示,形成原始特征向量集的步骤具体为:[0017]利用K均值分别将目标域、源域的特征描述符量化为若干个视觉词汇,形成码本;[0018]根据码本生成直方图,形成目标域原始特征向量集和源域原始特征向量集。[0019]本发明提供的技术方案的有益效果是:[0020]1、避免了采集动作视频时对摄像机空间位置信息的依赖,可以用来处理跨视角人体动作数据库的动作识别问题,具有更广泛的适用性;[0021]2、采用两个变换矩阵做特征映射,减少了不同域之间的差异,同时增加了训练样本的大小,提高分类器的性能;[0022]3、模型学习中使用块加权核函数矩阵(即后续的核矩阵来突出显著性分量,提高了模型的判别能力。附图说明[0023]图1为一种基于跨域学习的跨视角动作识别方法的流程图;[0024]图2为IXMAS洛桑联邦理工学院运动获取数据库)多视角人体动作数据集的样本示例。具体实施方式[0025]为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。[0026]为了解决背景技术中存在的问题,需要提供一种能够全面、自动、准确对跨视角情况下的人体动作进行识别的方法。研究表明:将来自不同视图的动作特征变换到一个公共特征空间中,不同视角下的人体动作就可以在这个公共空间中进行比较。[0027]实施例1[0028]本发明实施例提出了一种基于跨域学习的跨视角动作识别方法,参见图1,详见下文描述:[0029]101:对目标域和源域的视频数据分别提取视觉特征,采用视觉词袋模型作为视觉表示,形成原始特征向量集;[0030]102:通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中,将原始特征和变换特征结合,分别形成目标域和源域新的特征映射函数,构成新的特征向量集;[0031]103:采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器;利用分类器对待测视频进行动作类别的判定,得到最终的识别结果。[0032]在步骤101之前,本方法还包括:采集不同视角下的人体动作视频数据,构建多视角的人体动作数据集,从人体动作数据集中选择一个视角作为目标域,其他数据作为源域。[0033]如上所述,本发明实施例避免了传统动作识别场景中对摄像机空间位置信息的依赖,应用两个变换矩阵使不同的视角域映射到一个共同的特征空间,有效地提高了跨视角动作识别的准确率。[0034]实施例2[0035]下面结合具体的计算公式、附图对实施例1中的方案进行进一步地介绍,详见下文描述:[0036]201:采集不同视角下的人体动作视频数据,构建多视角的人体动作数据集,从人体动作数据集中选择一个视角作为目标域,其他数据作为源域即辅助域);[0037]其中,人体动作视频数据来自于IXMAS多视角动作识别数据库[13]。图2给出了IXMAS多视角数据集的样本示例,每列显示不同视角下的同一个动作。该数据集包含11个日常动作,分别是:检查手表、交叉臂、挠头、坐下、起床、转身、走路、招手、出拳、踢腿和捡东西,每个动作由10个非职业演员表演3次,并且由不同位置的5个摄像机S卩5个视角,分别对应图2中的五行)同时拍摄每个动作。[0038]本发明实例选择成对视图(两个视角)来进行测试。首先在IXMAS中选择一个视角视角1拍摄的数据作为目标域,另外一个视角视角2拍摄的数据作为源域;其次,再用视角2的数据用作目标域,视角1的数据用作辅助域,也进行相同的实验。因此,对于IXMAS,有10组实验。[0039]S卩,实验1:视角1为目标域,2为源域;实验2:视角2为目标域,1为源域;实验3:视角1为目标域,3为源域;实验4:视角3为目标域,1为源域等。[0040]在实验过程中,从目标域中选择一个人任意1人的动作作为测试数据,从目标域中随机选择其他人另外9人的动作数据与来自另一个视角的相同动作数据作为模型学习的训练样本。[0041]例如:选择图2中的第一行的视角(作为视角1拍摄的转身、捡东西等动作的数据作为目标域,第二行的视角作为视角2拍摄的转身、捡东西等动作的数据作为源域。在目标域中选择一个人的转身动作作为测试数据,其余9人的所有动作包括转身、捡东西等数据、与源域中的转身动作数据作为模型学习的训练样本。[0042]这个实验设置可以保证目标域的训练样本的数量小于源域,同时更适合于现实世界。因为在现实世界中,很难得到目标域的视角信息,但是可以容易地获得源域的视角信息。[0043]202:对目标域和源域的视频数据分别提取视觉特征,然后采用视觉词袋模型作为视觉表示,形成原始特征向量集;[0044]其中,视觉特征采用STIP特征[9],应用导向光流直方图(HOF和方向梯度直方图HOG描述兴趣点,其中HOF可以表示时间信息,HOG可以表示空间信息。[0045]采用视觉词袋模型作为视觉表示,形成原始特征向量集的步骤具体为:[0046]利用K均值分别将目标域和源域的STIP特征描述符量化为1000个视觉词汇形成码本,根据码本生成直方图,形成目标域原始特征向量集A"=WG=1,…,和源域原始特征向量集e俨|_=1,4为目标样本,R为实数集,dt为目标域特征维数,m为目标域样本个数,〇用以分别控制P和Q的复杂度,其中为SVM训练函数自带的参数,属于SVM基础理论,本发明实施例对这几个参数不做赘述。[0061]其中,参数:、11、的具体取值根据实际应用中的需要进行设定,本发明实施例对此不做限制。[0062]为解方程(I,首先导出方程⑴中关于w,b:的内部优化问题的对偶形式(BP每一个线性规划问题都伴随有另一个线性规划问题,该部分为本领域技术人员所公知,本发明实施例对此不做赘述)。[0063]具体来说,为方程⑵中的约束引入双变量[0064]通过设置方程(1中关于w,b,的拉格朗日导数等于零,获得Karush-Kuhn-TuckerKKT条件:[0065][0066][0067][0068]通过KKT条件,得到如下的替代优化问题:[0069][0070][0071][0072]其中,α是对偶变量的向量,y是标签向量,分别包括目标标签和源标签,Kp,q为与P、Q有关的矩阵,1Uk,为所有元素为1的ns+ntX1维列向量,为所有元素为0的ns+ntX1维列向量。[0073]定义1„为11Xη单位矩阵,Inxm为所有元素为零的ηXm维矩阵;定义〇s,为所有元素为〇或1的nX1维列向量;不等式a表示矢量a和b之间的逐元素积。[0074]由式⑵导出的核矩阵Kp,Q如下所示:[0075][0076]其中人为nsXns单位矩阵,心为ntXnt单位矩阵。[0077]通过观察,可以发现投影矩阵P和Q总是以和VQ的形式出现,所以可以通过定义中间变量H=[P,Q]’[P,Q],丢弃P和Q,使公共子空间变成潜在的。[0078]通过H的引入,将方程式⑵中的优化问题转换如下最后拟定的方法:[0079][0080][0081]traceHλ,[0082]其中,Kh为与中间变量H有关的矩阵,traceH为Kh的迹。[0083][0084][0085]通过上述处理,通过迭代更新a和H来解决上述的方程3。[0086]在获得解ct和H之后,可以通过使用以下决策函数作为最终的分类器来预测目标域中的任何测试样本:[0087][0088]其中,和kXi,Xj=ΦXi’ΦXj是两个数据样本Xi和Xj的预定义核函数。和K的具体取值根据实际应用中的需要进行设定。[0089]205:利用训练好的分类器对待测视频进行动作类别的判定,得到最终的识别结果D[0090]如上所述,本发明实施例避免了传统动作识别场景中对摄像机空间位置信息的依赖,应用两个变换矩阵使不同的视角域映射到一个共同的特征空间,有效地提高了跨视角动作识别的准确率。[0091]参考文献[0092][I]S.Gourgari,G.Goudelis,K.Karpouzis,S.D.Kollias,THETIS:ThreeDimensionalTennisShotsaHumanActionDataset,CVPRWorkshops,2013.pp.676-681.[0093][2]K.K.Reddy,N.P.Cuntoor,A.G-A-PererajA-HoogsjHumanActionRecognitioninLarge-ScaleDatasetsUsingHistogramofSpatiotemporalGradients,AVSS,2012·ρρ.106-111.[0094][3]S.SinghjS.A.VelastinjH-RaghebjMuHAVi:AMulticameraHumanActionVideoDatasetfortheEvaluationofActionRecognitionMethods,AVSSj2010.pp.48-55.[0095][4]H.ffang,M.M.Ullah,A.Klaser,I.LaptevjC.SchmidjEvaluationofLocalSpatio-TemporalFeaturesforActionRecognition,BMVC,2009.pp.1-11·[0096][5]J.Konccny,M-HagarajOne-Shot-LearningGestureRecognitionUsingH0G-H0FFeaturesjCoRRabs1312.4190,2013.[0097][6]K.Onishi,T.Takiguchi,Y.Ariki,3DHumanPostureEstimationUsingtheHOGFeaturesFromMonocularImage,ICPR,2008.pp.1-4.[0098][7]L·Shao,L·Liu,M·Yu,Kernelizedmultiviewprojectionforrobustactionrecognition,Int.J.Comput.Vis.2015http:dx.doi.org10.1007sll263-015-0861-6.[0099][8]C.Rao,A.Yilmaz,M.Shah,View-invariantrepresentationandrecognitionofactions,Int.J.Comput.Vis.5022002203-226.[0100][9]J.Zheng,Z.Jiang,P.J.Phillips,R.Chellappa,Cross-ViewActionRecognitionviaaTransferableDictionaryPair,ΒΜνϋ,2012.ρρ.1-11.[0101][10]H·Wang,F.Nie,Η·Huang,RobustandDiscriminativeSelf-TaughtLearning,ICML3,2013·pp·298-306·[0102][11]L.DuanjI.ff.-H.TsangjD.XujS.J.MaybankjDomainTransferSVMforVideoConceptDetection,CVPR,2009.pp.1375-1381·[0103][12]F·Zhu,L·Shao,Weakly-supervisedcross-domaindictionarylearningforvisualrecognition,Int.J.Comput.Vis.1091-2201442-59.http:dx.doi.org10.1007sll263-014-0703-y.[0104][13]D.WeinlandjM.OzuysaLP.FuajMakingActionRecognitionRobusttoOcclusionsandViewpointChanges,ECCV3,2010.pp.635-648.[0105][14]N.Cristianini,J.Shawe-TaylorjAnintroductiontosupportvectormachines[J].2000.[0106]本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0107]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种基于跨域学习的跨视角动作识别方法,其特征在于,所述方法包括以下步骤:对目标域和源域的视频数据分别提取视觉特征,采用视觉词袋模型作为视觉表示,形成原始特征向量集;通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中,将原始特征和变换特征结合,分别形成目标域和源域新的特征映射函数,构成新的特征向量集;采用基于标准支持向量机的跨域学习方法训练变换矩阵,并为每个人体动作生成最终分类器;利用分类器对待测视频进行动作类别的判定,得到最终的识别结果。2.根据权利要求1所述的一种基于跨域学习的跨视角动作识别方法,其特征在于,所述方法还包括:采集不同视角下的人体动作视频数据,构建多视角的人体动作数据集,从人体动作数据集中选择一个视角作为目标域,其他数据作为源域。3.根据权利要求1所述的一种基于跨域学习的跨视角动作识别方法,其特征在于,所述采用视觉词袋模型作为视觉表示,形成原始特征向量集的步骤具体为:利用K均值分别将目标域、源域的特征描述符量化为若干个视觉词汇,形成码本;根据码本生成直方图,形成目标域原始特征向量集和源域原始特征向量集。

百度查询: 天津大学 一种基于跨域学习的跨视角动作识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。