买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于双目时空内在推理机制的3D视频质量盲评估方法_上海大学_201810172989.2 

申请/专利权人:上海大学

申请日:2018-03-02

公开(公告)日:2020-11-24

公开(公告)号:CN108259891B

主分类号:H04N17/00(20060101)

分类号:H04N17/00(20060101);H04N13/10(20180101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.24#授权;2018.07.31#实质审查的生效;2018.07.06#公开

摘要:本发明公开了一种基于双目时空内在推理机制的3D视频质量盲评估方法。首先,通过双目时空内在推理机制将3D视频的两个视点分别分解成多通道视频,包括能预测部分和不确定部分。结合左右视点和双目差值图的能预测部分和不确定部分得到6个通道的视频。然后,对每个视频建立多通道自然视频(Naturalvideostatistics,NVS)统计模型,并提取NVS模型的统计参数作为视频质量的特征。最后,采用一个AdaBoosting径向基函数网络对数据进行训练得到一个将特征映射为视频质量的模型。本发明方法在IRCCYN和IMCL两个通用3D视频数据库上进行试验,都具有较高的鲁棒性和准确性。

主权项:1.一种3D视频质量盲评估方法,其特征在于,包括如下步骤:步骤1、3D视频内容分解:将3D视频的左右视点分别分解成能预测部分和不确定部分;步骤2、多通道视频内容提取:根据步骤1得到左右视点的不确定部分和能预测部分共4个通道的视频,将左右视点能预测部分相减,得到能预测部分双目差值图;同样地,将左右视点不确定部分相减,得到不确定部分双目差值图;由此,得到6个通道的视频内容;步骤3、自然视频统计模型建立:对每个通道的视频进行统计建模,即对每个通道的视频的前后帧作差值以捕捉视频时空域的失真,将帧间差值用梯度进行校正,使其服从广义高斯分布统计模型;对帧间差值进行低通滤波,同样的,对滤波后的视频用梯度进行校正,使其服从广义高斯分布统计模型;步骤4、统计特征提取:提取步骤3中的统计模型的参数,得到这两个模型的统计参数之间的相关性作为特征;对步骤2得到的6个通道的视频重复步骤3-4的操作,得到3D视频的6个特征值;步骤5、特征训练:采用一个AdaBoosting径向基函数网络对数据进行训练,其中,AdaBoosting提供了一个框架,即由弱学习机组合成一个有较强鲁棒性和分类能力的强学习机;这里,弱学习机采用的是径向基函数网络;步骤6、质量评估值输出:由上述步骤5训练得到的模型将视频的特征映射为最终的3D视频质量值。

全文数据:基于双目时空内在推理机制的3D视频质量盲评估方法技术领域[0001]本发明涉及一种3D视频质量评估方法,特别是涉及一种基于双目时空内在推理机制的3D视频质量盲评估方法,属于视频编码、传输技术利用。背景技术[0002]随着通信技术和计算机网络技术的发展,网络已经广泛应用于人们的日常工作生活中,给人们以直观生动的形象,视频电话、视频会议、网络电视等网络视频业务越来越普遍。3D视频的立体感给人身临其境的沉浸感,深受观众追捧。网络视频对实时性要求高,并且对时延、抖动、分组丢失等网络失真非常敏感,然而传统的互联网协议网络遵循尽力而为的服务原则,网络视频业务的服务质量并不能得到保证。对3D视频进行实时评估有助于网络供应商对突发网络状况做出决策,给用户提供更好的视觉体验。[0003]根据对原始视频的参考程度,可以将视频质量评估方法分为全参考、半参考和无参考。全参考质量评估方法Full-reference,FR是通过比较参考视频序列和测试视频序列每一帧之间的差别得到测试视频的质量。该方法需要获取完整的原始参考视频,并且通常是没有被压缩和损坏的视频,因此对实际运用来说是一个巨大的限制。无参考质量评估方法N〇-referenCe,NR在评估时只能得到测试视频序列而无法得到参考视频序列。该方法只是通过对接收到的测试视频进行分析和处理提取到视频序列的某些失真信息,如方块效应、模糊等,然后根据这些失真的特征信息来评估测试视频的质量。半参考质量评估方法Reducedreference,RR是介于FR方法和NR方法的一种方法。视频质量评估方法都有各自不同的应用环境。FR方法需要严格的应用到参考视频,FR方法较适合用于为了调整编码参数的离线视频质量评估或实验室测试评估。RR方法和NR方法较适合用于网络视频系统中任意节点嵌入式视频质量监控,NR方法也可方便的用于网络终端视频质量监控和评估,因此研究无参考视频质量评估对网络视频意义重大。发明内容[0004]本发明的目的是为了对网络终端3D视频进行质量监控和评估,提出一种基于双目时空内在推理机制的3D视频质量盲评估方法,通过对失真的3D视频进行统计模型建模和基于人类视觉系统的分析得到视频质量的评估值。本发明方法不需要原始视频,属于无参考视频质量评估模型,节省了带宽的同时提高了质量评估模型的精确度。[0005]为达到上述目的,本发明的构思是:[0006]首先,通过双目时空内在推理机制将3D视频的左右两个视点分别分解成多通道视频,包括能预测部分和不确定部分。然后,对每个视频建立多通道自然视频NaturalvideostatistiCS,NVS统计模型,并提取NVS模型的统计参数作为视频质量的特征。最后,采用一个AdaBoosting径向基函数网络对数据进行训练得到一个将特征映射为视频质量的模型,即本发明所述的3D视频质量盲评估模型。[0007]根据上述构思,本发明采用如下技术方案:[0008]一种基于双目时空内在推理机制的3D视频质量盲评估方法,包括如下步骤:[0009]步骤1、3D视频内容分解:根据双目时空内在推理机制,将3D视频的左右视点分别分解成能预测部分和不确定部分;[0010]步骤2、多通道视频内容提取:根据步骤1得到左右视点的不确定部分和能预测部分共4个通道的视频,将左右视点能预测部分相减,得到能预测部分双目差值图;同样地,将左右视点不确定部分相减,得到不确定部分双目差值图;由此,得到6个通道的视频内容;[0011]步骤3、自然视频统计模型建立:对每个通道的视频进行统计建模,即对每个通道的视频的前后帧作差值以捕捉视频时空域的失真,将帧间差值用梯度进行校正,使其服从广义高斯分布统计模型;对帧间差值进行低通滤波,同样的,对滤波后的视频用梯度进行校正,使其服从广义高斯分布统计模型;[0012]步骤4、统计特征提取:提取步骤3中的统计模型的参数,得到这两个模型的统计参数之间的相关性作为特征;对步骤2得到的6个通道的视频重复步骤3-4的操作,得到3D视频的6个特征值;[0013]步骤5、特征训练:采用一个AdaBoosting径向基函数网络对数据进行训练,其中,AdaBoosting提供了一个框架,即由弱学习机组合成一个有较强鲁棒性和分类能力的强学习机;这里,弱学习机采用的是径向基函数网络;[0014]步骤6、质量评估值输出:由上述步骤5训练得到的模型将视频的特征映射为最终的3D视频质量值。[0015]在所述步骤1中,能预测部分由贝叶斯预测模型得到,表示为:[0017]其中,^表示对左视点当前帧的每个像素的预测值,是X分别与x,x’,x”之间的互信息山、12、13为不同信息所占的重要性1:+12+13=1;同理,得到右视点的能预测部分为;不确定部分由当前帧减去能预测部分得至IJ,左右视点的不确定部分分别表示为[0018]在所述步骤2中,左右视点能预测部分和不确定部分相减得到不确定部分双目差值图分别为:[0021]由此得到6个通道的视频分别为:[0022]在所述步骤3中,分别将每个通道的视频帧划分成MXN大小的块;将前后帧的相应块相减得到帧间差值为AIt,对其进行归一化并用梯度值对帧间差值进行校正,校正后的服从广义高斯分布;每个块得到广义高斯分布的分布参数α、β,每一帧共PXQ个块,得到的分布参数向量记为;对帧间差值进行滤波,得到一个子带AJt,同样的对其进行归一化并用梯度值对帧间差值进行校正,得到统计分布参数向量为子带间的相关性反映视频的质量,因此,将子带间的相关性作为视频的特征。[0023]上述步骤4中,相关性计算表达式为:[0026]上述步骤5中,AdaBoosting径向基函数神经网络是由弱学习机集合成的一个具有较强学习能力和较高鲁棒性的神经网络,这里每个径向基函数神经网络共有3层网络,分别为输入层、隐藏层和输出层;输入是,隐藏层共有6个隐藏节点与输入进行全连接,激活函数是高斯函数,输出层是一个输出值,即视频质量的预测值;每个弱学习机的输出由误差函数进行加权调整,得到最终的视频质量预测值。[0027]本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:[0028]1、本发明方法充分考虑了人类视觉系统的特点,即人脑会根据前后帧之间的联系和左右视点之间的联系推测视频的主要内容,并忽略不确定的残差信息。提出了一种基于双目时空内在推导机制的视频内容分解模型。[0029]2、本发明方法利用梯度信息对统计模型进行校正,使其更符合高斯分布模型,从而提高模型的精确度。[0030]3、本发明方法利用统计信息进行建模,不需要原始视频,节约了带宽资源。[0031]4、本发明方法采用AdaBoosting径向基函数神经网络对数据进行训练,比一般的训练方法具有更高的鲁棒性和精确度。附图说明[0032]图1为本发明基于双目时空内在推理机制的3D视频质量盲评估方法的操作程序框图。[0033]图2为基于双目时空内在推理机制的贝叶斯预测模型。[0034]图3为3D视频内容分解结果左视点为例),(a能预测部分,(b不确定部分。[0035]图4为单通道视频的帧间差值的统计分布图。[0036]图5为视频质量随子带相关性变化图。[0037]图6为AdaBoosting径向基函数神经网络的结构图。具体实施方式[0038]本发明的优选实施例结合附图详述如下:[0039]本实施例的具体步骤如图1流程图所示。在WinlO,Matlab2012b环境下编程仿真实现本方法。首先,根据双目时空内在推理机制将左右视点分别分解为能预测部分和不确定部分共4个通道的视频。然后分别将左右视点的能预测部分和不确定部分相减得到双目差值图。能预测部分和不确定部分的差值分别为。到此,一共得到6个通道的视频•然后,对每个通道的视频进行统计建模,提取统计特征,得到6个统计特征为最后,用AdaBoosting径向基函数神经网络进行训练得到最终的视频质量评估模型。[0040]本方法具体包括如下步骤:[0041]步骤1、3D视频内容分解:根据双目时空内在推理机制,将3D视频的左右视点分别分解成能预测部分和不确定部分;[0042]步骤2、多通道视频内容提取:根据步骤1得到左右视点的不确定部分和能预测部分共4个通道的视频,将左右视点能预测部分相减,得到能预测部分双目差值图;同样地,将左右视点不确定部分相减,得到不确定部分双目差值图;由此,得到6个通道的视频内容;[0043]步骤3、自然视频统计模型建立:对每个通道的视频进行统计建模,即对每个通道的视频的前后帧作差值以捕捉视频时空域的失真,将帧间差值用梯度进行校正,使其服从广义高斯分布统计模型;对帧间差值进行低通滤波,同样的,对滤波后的视频用梯度进行校正,使其服从广义高斯分布统计模型;[0044]步骤4、统计特征提取:提取步骤3中的统计模型的参数,得到这两个模型的统计参数之间的相关性作为特征;对步骤2得到的6个通道的视频重复步骤3-4的操作,得到3D视频的6个特征值;[0045]步骤5、特征训练:采用一个AdaBo〇sting径向基函数网络对数据进行训练,其中,AdaBoosting提供了一个框架,即由弱学习机组合成一个有较强鲁棒性和分类能力的强学习机;这里,弱学习机采用的是径向基函数网络;[0046]步骤6、质量评估值输出:由上述步骤5训练得到的模型将视频的特征映射为最终的3D视频质量值。[0047]在所述步骤1中,以左视点为例,利用左视点当前帧,左视点前一帧,右视点当前帧之间的互信息,将左视点分解成能预测部分和不确定部分_。能预测部分由贝叶斯预测模型得到,如图2所示,X是当前帧(左视点为例)的待预测像素,X={X1,X2,...,χΝ}是与X相邻的像素,x’={xi’,x’2,...,x’n}是左视点前一帧中与x’相邻的像素,x〃={χ〃ι,x〃2,...,X〃N}是右视点当前帧中与X”相邻的像素,χ、χ’、χ”在每一帧中有相同的位置。[0048]能预测部分的像素表示为:[0050]其中,xP表示对左视点当前帧的每个像素的预测值,,Fx;xiFx;x’j和Fx;x〃j是X分别与x,x’,x”之间的互信息。Ii、l2、l3不同信息所占的重要性,1^12+13=1,同理,得到右视点的能预测部分为V。如图3所示是左视点分解之后的结果,a是能预测部分,(b是不确定部分。[0051]不确定部分由当前帧减去能预测部分得到,左右视点的不确定部分分别表示为[0052]在所述步骤2中,左右视点的差值表示视差变化大的地方,这些地方的失真对3D视频的质量影响较大,尤其是对3D的深度感知的影响。左右视点能预测部分和不确定部分相减得到不确定部分双目差值图分别为:[0055]由此得到6个通道的视频分别为::[0056]在所述步骤3中,如图4所示,是归一化帧间差值统计分布图,可见其服从广义高斯分布。分别将每个通道的视频帧划分成MXN大小的块。将前后帧的相应块相减得到帧间差值为△IS对其进行归一化并用梯度值对帧间差值进行校正:[0059]校正后的服从广义高斯分布:[0061]其中,_β是形状参数,σ是标准差。[0062]每个块可以得到广义高斯分布的分布参数α、β,每一帧共PXQ个块,得到的分布参数向量记为其中,[0063]对帧间差值进行滤波得到一个子带△Jt,同样的对其进行归一化并校正,得到统计分布参数向量为。子带间的相关性可以反映视频的质量,如图5所示,因此,将子带间的相关性作为视频的特征。[0064]上述步骤4中,将前后帧的统计参数向量相减得到:[0067]其中,te{1,2,···,Τ}。[0068]将..分别表不为:[0071]子带间的相关性表示为:[0073]对相关性进行时域的池化:[0074][0075]提取步骤2中的6个通道的视频的统计特征为[0076]上述步骤5中,如图6所示,采用一个AdaBoosting径向基函数网络对数据进行训练,其中,AdaBoosting提供了一个框架,即由弱学习机组合成一个有较强鲁棒性和分类能力的强学习机;这里,弱学习机采用的是径向基函数网络;本发明所用的弱学习机是径向基函数网络,这里每个径向基函数神经网络共有3层网络,分别为输入层、隐藏层和输出层。输入是,隐藏层共有6个隐藏节点与输入进行全连接,激活函数是高斯函数,输出层是一个输出值,即视频质量的预测值。[0077]下面在IRCCYN和IMCL两个通用3D视频数据库上进行试验来评估本发明所提出的基于双目时空内在推理机制的3D视频质量盲评估方法。IRCCYN数据库共有10个不同内容的3D视频,每个视频有10种不同的失真情况,包括H.264,JPEG2000,下采样和锐化等失真,本实验只采用了其中H.264,JPEG2000压缩失真的一部分视频。頂CL视频库是基于HEVC压缩下的失真建立的视频库,包括了不同量化系数下的对称失真和不对称失真,并含有不同深度场景下的视频。本实验的环境是Win1064位操作系统下的Matlab2012b平台,内存为4GB,CHJ频率为2.7GHz。上述每一帧划分为PXQ块,每块大小为MXN,大小设为72X72。在实验中,数据库中80%设为训练集,剩下的20%作为测试集,训练集和测试集不重合。使用斯皮尔曼秩相关系数(Spearman’srankorderedcorrelationcoefficient,SROCC和皮尔逊线性相关系数Pearson’slinearcorrelationcoefficient,PLCC作为质量评估模型的与主观评价的相似度,这两个值越接近1代表模型与主观评价的符合度更高,精确度越高。[0078]本实施例选取了7个对比算法,分别是Chen内,STRIQE[2],STMAD[3],Qfl[4],FLOS頂[5],Chen3D以及STRIQE3D。其中,Chen和STRIQE是3D图像评估算法,本实验将它们简单地扩展到视频算法;STMAD是一个2维视频的评估算法,本实验用该方法得到左右视点视频的质量并做加权平均得到最终的3D视频质量;Qfl是一种精确度较高的3D视频质量评估算法;FLOSIM在算法中加入了视差图;Chen3D和STRIQE3d是采用时域和空域特征对Chen和STRIQE进行扩展的3D视频质量评估算法。实验结果如表1和表2所示是本发明的评估方法与其他7个算法的SROCC和PLCC结果比较。[0079]表1[0081]表2[0084]其中,实验结果最好的算法用黑色字体加粗。从表中可以看到本发明的方法在两个数据库上都有较好的鲁棒性和精确性,特别是在IMCL数据库上,由于该数据库上有非对称失真,其他算法的精确度都明显下降,而本发明方法仍旧有较好的实验结果。由上述实验可见,本发明方法在3D视频质量评估上确实有较好的鲁棒性和精确性,并且计算复杂度低,能更好地适用于实时视频质量监控。[0085]参考文献:[0086]1M.J.Chen,C.C.Su,D.K.Kwon,L.K.Cormack,andA.C.Bovik,aFull~referencequalityassessmentofstereopairsaccountingforrivalrySignalProcessing:ImageCommunication,vo1.28,no.9,pp.1143-1155,2013.[0087]2S.K.Md,B.Appina,andS·Channappayya,“Ful1-ReferenceStereoImageQualityAssessmentUsingNaturalStereoSceneStatistics”,IEEESignalProcessingLetters,vo1.22,no.11,Nov.2015.[0088]3P.V.Vu,C.T.Vu,andD.M.Chandler,uAspatiotemporalmostapparent-distortionmodelforvideoqualityassessmentin18thIEEEInternationalConferenceonImageProcessing,pp.2505-2508,IEEE,2011.[0089]4B.Appina,M.K.,andS.S.Channappayya,uAFullReferenceStereoscopicVideoQualityAssessmentMetric”,IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessingICASSP,2017.[0090]5M.K.andS.S.ChannappayyajuAnopticalflow-basedfullreferencevideoqualityassessmentalgorithm,’,IEEETransactionsonImageProcessing,vol.25,pp.2480-2492,June2016.

权利要求:1.一种基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,包括如下步骤:步骤1、3D视频内容分解:根据双目时空内在推理机制,将3D视频的左右视点分别分解成能预测部分和不确定部分;步骤2、多通道视频内容提取:根据步骤1得到左右视点的不确定部分和能预测部分共4个通道的视频,将左右视点能预测部分相减,得到能预测部分双目差值图;同样地,将左右视点不确定部分相减,得到不确定部分双目差值图;由此,得到6个通道的视频内容;步骤3、自然视频统计模型建立:对每个通道的视频进行统计建模,即对每个通道的视频的前后帧作差值以捕捉视频时空域的失真,将帧间差值用梯度进行校正,使其服从广义高斯分布统计模型;对帧间差值进行低通滤波,同样的,对滤波后的视频用梯度进行校正,使其服从广义高斯分布统计模型;步骤4、统计特征提取:提取步骤3中的统计模型的参数,得到这两个模型的统计参数之间的相关性作为特征;对步骤2得到的6个通道的视频重复步骤3-4的操作,得到3D视频的6个特征值;步骤5、特征训练:采用一个AdaBo〇sting径向基函数网络对数据进行训练,其中,AdaBoosting提供了一个框架,即由弱学习机组合成一个有较强鲁棒性和分类能力的强学习机;这里,弱学习机采用的是径向基函数网络;步骤6、质量评估值输出:由上述步骤5训练得到的模型将视频的特征映射为最终的3D视频质量值。2.根据权利要求1所述的基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,在所述步骤1中,能预测部分J1由贝叶斯预测模型得到,表示为:其中,^表示对左视点当前帧的每个像素的预测值,,艰HhFX^j和Fx;x〃j是X分别与x,x',x〃之间的互信息;Ii、l2、l3为不同信息所占的重要性IdlAl3=I;同理,得到右视点的能预测部分为,、不确定部分由当前帧减去能预测部分得至IJ,左右视点的不确定部分分别表示为丨Λ%3.根据权利要求1所述的基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,在所述步骤2中,左右视点能预测部分和不确定部分相减得到不确定部分双目差值图分别为:由此得到6个通道的视频分别为:。4.根据权利要求1所述的基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,在所述步骤3中,分别将每个通道的视频帧划分成MXN大小的块;将前后帧的相应块相减得到帧间差值为AIt,对其进行归一化并用梯度值对帧间差值进行校正,校正后的Δξ服从广义高斯分布;每个块得到广义高斯分布的分布参数α、β,每一帧共PXQ个块,得到的分布参数向量记为,其中:;对帧间差值进行滤波,得到一个子带AJt,同样的对其进行归一化并用梯度值对帧间差值进行校正,得到统计分布参数向量为;子带间的相关性反映视频的质量,因此,将子带间的相关性作为视频的特征。5.根据权利要求1所述的基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,上述步骤4中,相关性计算表达式为:6.根据权利要求1所述的基于双目时空内在推理机制的3D视频质量盲评估方法,其特征在于,上述步骤5中,AdaBoosting径向基函数神经网络是由弱学习机集合成的一个具有较强学习能力和较高鲁棒性的神经网络,这里每个径向基函数神经网络共有3层网络,分别为输入层、隐藏层和输出层;输入是,隐藏层共有6个隐藏节点与输入进行全连接,激活函数是高斯函数,输出层是一个输出值,即视频质量的预测值;每个弱学习机的输出由误差函数进行加权调整,得到最终的视频质量预测值。

百度查询: 上海大学 基于双目时空内在推理机制的3D视频质量盲评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。