买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于图神经网络的VVC帧内编码快速块划分方法_重庆师范大学_202311613458.X 

申请/专利权人:重庆师范大学

申请日:2023-11-29

公开(公告)日:2024-03-01

公开(公告)号:CN117640931A

主分类号:H04N19/119

分类号:H04N19/119;H04N19/124;H04N19/186;H04N19/593;H04N19/96;G06T9/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.19#实质审查的生效;2024.03.01#公开

摘要:本发明提供一种基于图神经网络的VVC帧内编码快速块划分方法,包括具有纹理特征编码器、多叉树特征编码器和标签预测器的基于图神经网络的编码单元划分结构预测网络模型搭建,基于多阈值的快速块划分决策方法设置,编码单元划分结构预测网络模型训练与参数优化,以及基于图神经网络的VVC帧内编码快速块划分方法流程。本申请使用卷积神经网络和图神经网络学习编码单元重要纹理信息,引入十字交叉注意力和多叉树特征编码器以实现多维度特征的交互融合,并将编码单元的量化参数进行归一化后输入网络模型,实现对最优划分结构的精准预测,之后再通过预测结果优化块划分流程,实现不降低整体编码效率的前提下大幅度提升VVC的运行速度。

主权项:1.一种基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,包括以下步骤:S1、基于图神经网络的编码单元划分结构预测网络模型搭建:S11、基于图神经网络的编码单元划分结构预测网络包括纹理特征编码器、多叉树特征编码器和标签预测器,所述纹理特征编码器包括局部特征编码器和全局特征编码器,所述局部特征编码器通过卷积和最大池化操作进行编码单元中纹理特征的初步提取,实现局部区域从低级纹理特征到高级语义特征的转换,并将低维度图像特征映射到高维特征空间,扩充纹理特征的表征规模;所述全局特征编码器通过图卷积操作和十字交叉注意力机制实现,所述图卷积操作包含图卷积计算和前馈神经网络两个部分,所述图卷积计算对编码单元中不同区域间的长距离依赖关系进行建模,所述前馈神经网络引入非线性变换助于更复杂的建模输入数据的映射,使得网络更好的处理视觉特征与纹理特征,所述十字交叉注意力融合长距离像素之间的上下文相关性信息,产生更加有效的特征图,提高模型的语义理解能力,所述纹理特征编码器最后输出的特征图通过一个全局平均池化与展平层映射为一维特征向量进行表示;所述多叉树特征编码器包括不同结构的五个卷积层以及学习各划分区域间相关性的交叉注意力层,所述五个卷积层与VVC标准中六种QTMT划分结构中的五种划分结构相对应,所述交叉注意力层将两个相同维度的独立嵌入序列不对称的组合在一起,其中一个序列作为查询输入,另一个序列作为键和值输入,所述多叉树特征编码器最后的输出通过一个卷积层映射为多叉树特征向量;所述标签预测器将纹理特征编码器和多叉树特征编码器得到的特征向量与编码单元的量化参数融合,并通过多个全连接层进行特征判别,得到各划分结构的预测概率,供基于多阈值的快速块划分方法进行最优划分结构的选择;S12、所述纹理特征编码器包含顺序设置的初始卷积层、基于VVC最小编码单元尺寸的4×4卷积层、第一个图卷积块、第一个十字交叉注意力模块、下采样层、第二个图卷积块和第二个十字交叉注意力模块,每个图卷积块包含一个图卷积计算和一个前馈神经网络;所述多叉树特征编码器包含五个与VVC标准中QTMT划分结构相对应的卷积层以及学习各划分区域间相关性的交叉注意力层;所述标签预测器包含三个全连接层、两个批归一化层和三个激活函数层;S2、基于多阈值的快速块划分决策方法设置:设置一个预测划分结构数量阈值τm和一个概率置信度阈值τp,将预测概率高于τp的τm个划分结构都加入到最有可能集中,如果最有可能集的数量超过了预测划分结构数量阈值τm,则将其中最不可能成为最优的若干划分结构剔除,为此,使用效率和质量的两组阈值来实现编码性能复杂度的权衡;在效率方案中,τp和τm分别被设置为1和1.0,即选择了具有最高预测概率的划分结构,实现编码时间的最大减少;在质量方案中,τp和τm分别被设置为3和0.3,即选择了预测概率最高的前三个划分结构,再使用τp丢弃冗余模式,这样可以降低编码复杂度,同时保持编码质量;S3、编码单元划分结构预测网络模型训练与参数优化:S31、网络参数初始化:采用Kaiming初始化方法对步骤S1搭建的基于图神经网络的编码单元划分结构预测网络模型参数进行初始化;S32、数据集建立与预处理:采用由高分辨率图像RAISE构建的视频序列作为训练数据,再将视频序列各帧按照编码单元大小进行裁剪与处理为灰度图作为训练样本,并通过原始编码器对数据的标签和量化参数进行标注;采用欠采样方法,使得在保证训练数据量充足的情况下保持各分类分布平均,使得模型能够得到充分训练;性能评价数据集使用由联合视频专家组给出的标准测试序列,用于评价提出方法的表现性能;S33、数据划分:将带有标签的数据集按照7:3比例分为训练集和验证集,采用5折交叉验证来对预测网络模型进行预训练;S34、将待编码单元的亮度信息与量化参数作为网络的输入,通过网络前向计算生成特征向量;S35、采用标准的监督损失函数作为分类预测网络目标优化函数,分类损失函数定义如下: 其中,L是在预训练数据集下的分类损失函数值,N表示样本总数量,Ln表示第n个样本的分类损失,yn表示第n个样本的真实标签,表示第n个样本预测为正类的概率值;S36、将模型参数优化至L最小值,采用Adam优化器和反向传播算法迭代更新网络参数θ得到最优网络模型参数θbest;S4、基于图神经网络的VVC帧内编码快速块划分方法流程:S41、用学习得到的最优网络模型参数θbest,搭建基于图神经网络的编码单元划分结构预测网络和基于多阈值的快速块划分决策方法替换VVC帧内编码中的编码单元划分流程;S42、将当前编码单元的亮度信息输入纹理特征编码器获取与纹理信息相关的特征表示,并经过全局平均池化与展平后得到纹理信息特征向量;S43、将纹理特征编码器中第一个图卷积块的输出送入多叉树特征编码器,获得有关多叉树划分结构的特征向量表示;S44、将纹理信息特征向量和多叉树特征编码器得到的特征向量与当前编码单元的量化参数进行特征融合,得到纹理-多叉树编码信息联合特征表示;S45、将纹理-多叉树编码信息联合特征送入标签预测器进行学习,并通过标签预测器中的Softmax函数将预测分数转换为预测概率;S46、根据得到的预测概率,按照基于多阈值的快速块划分决策方法,得到最终需要在帧内编码中检查的划分模式;在效率方案中,仅检查概率最高的划分结构;在质量方案中,首先选择预测概率前三的划分结构,再对预测概率前三划分结构中预测概率低于0.3的进行剔除,仅检查最终得到的若干划分结构,实现高效率的帧内编码块划分流程。

全文数据:

权利要求:

百度查询: 重庆师范大学 一种基于图神经网络的VVC帧内编码快速块划分方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。