买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于区域恰可察觉失真的感知视频编码方法_同济大学_201910356506.9 

申请/专利权人:同济大学

申请日:2019-04-29

公开(公告)日:2023-03-28

公开(公告)号:CN110062234B

主分类号:H04N19/14

分类号:H04N19/14;H04N19/124;H04N19/176;H04N19/146;H04N19/154

优先权:

专利状态码:有效-授权

法律状态:2023.03.28#授权;2019.08.20#实质审查的生效;2019.07.26#公开

摘要:本发明涉及一种基于区域恰可察觉失真的感知视频编码方法,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。在维持视频主观感知质量不变的约束下,在任意目标码率的条件下,本发明实现了将码率节省最大化的功能,与现有技术相比,具有低复杂度、高鲁棒性与高效率等优点。

主权项:1.一种基于区域恰可察觉失真的感知视频编码方法,其特征在于,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码;所述JND预测模型为基于CNN网络的JND预测模型,该JND预测模型的训练过程具体为:构建失真图像块的JND数据集,优化训练JND预测模型,并采用JND集合相似度评价方法对所述JND预测模型的预测精度进行评估;所述构建失真图像块的JND数据集具体包括以下步骤:1获取失真图像数据集的阶梯式JND;2将所述阶梯式JND映射为基于高效视频编码标准的图像级JND阈值集合;3根据图像级JND阈值集合计算各图像块的块级JND阈值集合;4将块级JND阈值集合完全相等的图像块归为一类;5舍弃JND为空集的以及所包含样本数目少于100的类别,形成失真图像块的JND数据集。

全文数据:一种基于区域恰可察觉失真的感知视频编码方法技术领域本发明涉及视频编码领域,尤其是涉及一种基于区域恰可察觉失真的感知视频编码方法。背景技术随着便携硬件设备获取丰富多媒体的能力逐渐增强,高清晰以及4K超高清视频应运而生。为了方便大容量视频的存储和传输,进一步提升视频编码性能十分必要。2012年提出的高效视频编码标准HEVC已成为目前主流的先进编码标准,但其仍然采用传统的客观评估标准来衡量压缩质量,如均方误差MSE和峰值信噪比PSNR等。但这类标准无法准确的衡量人眼的主观感知结果,因为人类视觉系统HVS对不同区域内容的失真敏感度存在差异性。为了进一步消除待压缩视频在感知域上的冗余,高效的感知视频编码方法有待提出。目前存在的感知视频编码方法大多以计算出的恰可察觉失真JND阈值为指导,JND阈值即为HVS能够容忍的最大失真程度,通常其被归为两类:基于像素域与基于变换域。前者通常采用亮度适应度与对比度掩蔽性作为计算JND的主要特征因素。而后者因便于指导编码中的量化单元而被更多地应用于感知视频编码中。然而,目前多数JND模型是在固定码率条件下构建,当目标量化参数更新时,需要进行重新计算,由此可见传统JND模型缺少普适性且复杂度较高;另外,此类模型将JND阈值描述为量化参数的连续函数,而最新研究表明,人眼对于失真感知具有阶跃性,故传统JND模型在模拟HVS的感知过程和指导感知编码方面存在一定的局限性。发明内容本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于区域恰可察觉失真的感知视频编码方法,通过消除视频信息中的感知冗余来进一步提高已有的视频压缩标准的编码效率。本发明的目的可以通过以下技术方案来实现:一种基于区域恰可察觉失真的感知视频编码方法,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。进一步地,所述JND预测模型为基于CNN网络的JND预测模型,该JND预测模型的训练过程具体为:构建失真图像块的JND数据集,优化训练JND预测模型,并采用JND集合相似度评价方法对所述JND预测模型的预测精度进行评估。进一步地,所述构建失真图像块的JND数据集具体包括以下步骤:1获取失真图像数据集的阶梯式JND;2将所述阶梯式JND映射为基于高效视频编码标准的图像级JND阈值集合;3根据图像级JND阈值集合计算各图像块的块级JND阈值集合;4将块级JND阈值集合完全相等的图像块归为一类;5舍弃JND为空集的以及所包含样本数目少于100的类别,形成失真图像块的JND数据集。进一步地,步骤2中,所述映射采用的映射关系为:其中,SSIMqf为JPEG平台下的结构相似性指标,为量化参数为k时HEVC标准的HM平台下的结构相似性指标,量化参数k约束在范围[8,42]内。进一步地,步骤3中,所述根据图像级JND阈值集合计算块级JND阈值集合具体步骤包括:31将全部图像块归为平坦区域与纹理区域两类;32分区域计算相邻JND阈值所对应的失真图像在目标平台上的SSIM距离差,以此作为区域图像级质量失真度量;33计算每个图像块的块级质量失真度量;34通过比较块级与其所属区域的图像级质量失真度量得到最终块级JND阈值集合。进一步地,所述步骤34采用的具体公式表示为:其中,表示第i个图像块的块级JND阈值集合,QDb与QDp分别代表第i个图像块的块级质量失真度量与该图像块所属区域的区域图像级质量失真度量。进一步地,所述JND集合相似度评价方法所采用的指标LOA的表达式为:其中,Ap表示预测出的阶梯JND曲线与横纵坐标围成封闭区域的面积,Agt为对应JND真值曲线所围面积,∩与∪分别表示求相交面积与合并后总占用面积。进一步地,所述最优量化参数通过以下表达式获得:式中,QPPVC表示最终应用于感知视频编码的最优量化参数,预测JND阈值为{QP1,QP2,…,QPM},QPM为其中第M个即最大JND阈值,QPt为目标量化参数。进一步地,该方法利用HM框架完成视频编码。进一步地,进行编码配置时,属于同一LCU的编码单元均采用其父级LCU获得的量化参数选取方案。与现有技术相比,本发明具有以如下有益效果:一、低复杂度:本发明利用CNN直接提取图像块感知特征来预测其块级JND阈值,在任意目标码率条件下,均可按照本方法所提出的策略来优化量化参数的选择过程。二、高鲁棒性与普适性:本发明中训练预测模型所需的数据集,是通过在已发表的MCL-JCI数据集的基础上完成映射来构建的。该数据集所包含的图像内容广泛丰富,保证了样本间各项特征的充分差异性。三、高编码效率:本发明从客观码率节省和主观质量评价两个方面评估了编码效率。在HEVC官方视频序列数据集上均表现优良,最大与平均节省码率达到了59.58%和17.31%,且压缩后的图像与视频的主观质量无可察觉性下降,超过同类其他方法。附图说明图1为本发明的方法总流程图;图2为块级区域JND可视化结果图,其中,2a为第九张测试图在QP等于33时块失真情况,2b为第44张测试图在QP等于32时块失真情况;图3为感知编码策略中LCU的量化参数优化方法示意图;图4为预测模型评估标准LOA计算示意图,其中,4a为LOA=0.98333的示意图,4b为LOA=0.81199的示意图。具体实施方式下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。如图1所示,本实施例提供一种基于区域恰可察觉失真的感知视频编码方法,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。JND预测模型为基于CNN网络的JND预测模型,该JND预测模型的训练过程具体为:构建失真图像块的JND数据集,优化训练JND预测模型,并采用JND集合相似度评价方法对所述JND预测模型的预测精度进行评估。构建失真图像块的JND数据集具体包括以下步骤:1获取失真图像数据集,将数据集中图像切割为32×32的图像块,其中不足32的部分以黑像素填充,在JPEG平台下获取失真图像数据集的阶梯式JND。2将阶梯式JND映射为基于高效视频编码标准的图像级JND阈值集合。此步骤的任务概括为具体包括:21计算数据集中阶梯式JND包含的每个阈值所对应失真图像的结构相似性指标SSIM:SSIMX,Y=[LX,Y]α[CX,Y]β[SX,Y]γ其中,X、Y分别代表原始和失真图像,由公式知,失真程度从L亮度,C对比度,S结构三方面进行量化,一般情况下设定α=β=γ=1;22确定数据集中图像在HEVC压缩失真类型下的SSIM取值范围,其中量化参数QP固定约束在[8,42]内;23选取SSIM作为统一失真度量,设计映射关系:24根据23中的公式最小化图像在参考平台JPEG平台和目标平台HEVC标准下的HM平台上SSIM距离,qf表示参考平台,qp表示目标平台,最终得到数据集在HEVC压缩标准下的图像级JND阈值集合。3根据图像级JND阈值集合计算各图像块的块级JND阈值集合。31将全部图像块归为平坦区域与纹理区域两类;32分区域计算相邻JND阈值所对应的失真图像在目标平台上的SSIM距离差,以此作为区域图像级质量失真度量QDp;33计算每个图像块的块级质量失真度量QDb;块级质量失真度量QD的计算公式为:其中,N为图像包含的JND个数,上标表示第j个JND阈值;34通过比较块级与其所属区域的图像级质量失真度量得到最终块级JND阈值集合,采用的具体公式表示为:其中,表示第i个图像块的块级JND阈值集合,QDb与QDp分别代表第i个图像块的块级质量失真度量与该图像块所属区域的区域图像级质量失真度量,从上述公式可知,在某一QP条件下,当块级QD超过图像级QD时,此QP被判定为该块JND集合的一个元素。不同QP下的块级区域JND可视化效果如图2所示。4将块级JND阈值集合完全相等的图像块归为一类。5为解决数据集不平衡的问题,提高模型训练的稳定性,舍弃JND为空集的以及所包含样本数目少于100的类别,形成失真图像块的JND数据集。本实施例中,最终保留157类。在完成平衡调整后的数据集中任意选组45作为训练集,其余15作为测试。本实施例中具体采用基于AlexNet的JND预测模型进行图像块分类,JND阈值集合相同的图像块被认定为具有同类感知特性,图像块通过AlexNet预测可得出其所属类别的感知域信息,进而用于指导压缩。在训练时,设置初始学习率为0.0001,最多迭代次数为100000,batchsize为256。训练模型完成后,采用JND集合相似度评价方法leveloverlappingarea,LOA进行精度评估,所采用的指标LOA的表达式为:其中,Ap表示预测出的阶梯JND曲线与横纵坐标围成封闭区域的面积,Agt为对应JND真值曲线所围面积,∩与∪分别表示求相交面积与合并后总占用面积,统计每个类别下所有样本的LOA值,并计算所有LOA的均值作为模型评估的最终指标。LOA的计算结果如图4所示。根据预测模型输出的预测JND阈值{QP1,QP2,…,QPM}优化编码树单元CTU的量化参数,进而完成视频编码。如图3所示,最优量化参数通过以下表达式获得:式中,QPPVC表示最终应用于感知视频编码的最优量化参数,预测JND阈值为{QP1,QP2,…,QPM},QPM为其中第M个即最大JND阈值,QPt为目标量化参数。通过上述表达式可以最大程度地节约码率。该方法利用HM框架完成视频编码,且进行编码配置时,属于同一LCU的编码单元CU均采用其父级LCU获得的量化参数选取方案。为了验证本方法的性能,设计了以下实验。在HEVC官方视频序列公开数据集上应用本方法进行感知编码,其中测试序列包含832×480、1280×720、1920×1080三种分辨率且序列长度为200帧,视频编码配置为RandomAccess,参考方法为官方原始HM模型提供的编码方法,在给定的四个常用测试量化参数22,27,32,37条件下进行实验,采用如公式1的码率节省作为客观评价标准,采用如公式2的差分主观分值DMOS作为主观评价标准。BPP表示每像素所需比特数,BPPm表示本发明提出的编码方法对应的码率;表示15名实验人员的打分平均值。在主观评价方面主要选取视频数据集进行实验。参与实验的人员8名男性,7名女性均无视频压缩相关工作经验,实验距离为屏幕高度的3倍,采用双刺激连续质量标度方法,即参考序列与待评价序列播放随机逐次播放,每组对比评分结束后播放10秒无关视频。评分采取5分值,5分与1分分别代表最佳与最差质量。在HEVC官方测试序列数据集上的实验结果如表1所示。表1本发明在HEVC官方测试序列数据集上性能表现以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

权利要求:1.一种基于区域恰可察觉失真的感知视频编码方法,其特征在于,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。2.根据权利要求1所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,所述JND预测模型为基于CNN网络的JND预测模型,该JND预测模型的训练过程具体为:构建失真图像块的JND数据集,优化训练JND预测模型,并采用JND集合相似度评价方法对所述JND预测模型的预测精度进行评估。3.根据权利要求2所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,所述构建失真图像块的JND数据集具体包括以下步骤:1获取失真图像数据集的阶梯式JND;2将所述阶梯式JND映射为基于高效视频编码标准的图像级JND阈值集合;3根据图像级JND阈值集合计算各图像块的块级JND阈值集合;4将块级JND阈值集合完全相等的图像块归为一类;5舍弃JND为空集的以及所包含样本数目少于100的类别,形成失真图像块的JND数据集。4.根据权利要求3所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,步骤2中,所述映射采用的映射关系为:其中,SSIMqf为JPEG平台下的结构相似性指标,为量化参数为k时HEVC标准的HM平台下的结构相似性指标,量化参数k约束在范围[8,42]内。5.根据权利要求3所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,步骤3中,所述根据图像级JND阈值集合计算块级JND阈值集合具体步骤包括:31将全部图像块归为平坦区域与纹理区域两类;32分区域计算相邻JND阈值所对应的失真图像在目标平台上的SSIM距离差,以此作为区域图像级质量失真度量;33计算每个图像块的块级质量失真度量;34通过比较块级与其所属区域的图像级质量失真度量得到最终块级JND阈值集合。6.根据权利要求5所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,所述步骤34采用的具体公式表示为:其中,表示第i个图像块的块级JND阈值集合,QDb与QDp分别代表第i个图像块的块级质量失真度量与该图像块所属区域的区域图像级质量失真度量。7.根据权利要求2所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,所述JND集合相似度评价方法所采用的指标LOA的表达式为:其中,Ap表示预测出的阶梯JND曲线与横纵坐标围成封闭区域的面积,Agt为对应JND真值曲线所围面积,∩与∪分别表示求相交面积与合并后总占用面积。8.根据权利要求1所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,所述最优量化参数通过以下表达式获得:式中,QPPVC表示最终应用于感知视频编码的最优量化参数,预测JND阈值为{QP1,QP2,...,QPM},QPM为其中第M个即最大JND阈值,QPt为目标量化参数。9.根据权利要求1所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,该方法利用HM框架完成视频编码。10.根据权利要求9所述的基于区域恰可察觉失真的感知视频编码方法,其特征在于,进行编码配置时,属于同一LCU的编码单元均采用其父级LCU获得的量化参数选取方案。

百度查询: 同济大学 一种基于区域恰可察觉失真的感知视频编码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。