买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多任务学习的H.266VVC屏幕内容帧内CU快速划分方法及装置_华侨大学_202311280429.6 

申请/专利权人:华侨大学

申请日:2023-10-07

公开(公告)日:2023-12-29

公开(公告)号:CN117014610B

主分类号:H04N19/119

分类号:H04N19/119;H04N19/103;H04N19/96

优先权:

专利状态码:有效-授权

法律状态:2023.12.29#授权;2023.11.24#实质审查的生效;2023.11.07#公开

摘要:本发明公开了一种基于多任务学习的H.266VVC屏幕内容帧内CU快速划分方法及装置,涉及视频编码领域,该方法包括:获取屏幕内容视频,将128×128大小的CTU直接划分为64×64大小的CU;构建多任务学习网络模型,多任务学习网络模型包括主干网络、第一子网络和第二子网络,主干网络用于提取CU特征,将CU特征输入第一子网络和第二子网络,得到CU划分类型和编码模式,可结合编码模式及其预测概率和临近CU的划分类型综合确定预测结果;将64×64大小的CU输入经训练的多任务学习网络模型,得到第一预测结果;若第一预测结果为划分,则进一步划分为4个32×32大小的CU,并输入经训练的多任务学习网络模型,得到第二预测结果,解决H.266VVC屏幕内容帧内编码复杂度高的问题。

主权项:1.一种基于多任务学习的H.266VVC屏幕内容帧内CU快速划分方法,其特征在于,包括以下步骤:获取屏幕内容视频,采用标准编码器对所述屏幕内容视频进行编码,将128×128大小的编码树单元CTU直接划分为64×64大小的编码单元CU;构建多任务学习网络模型并训练,得到经训练的多任务学习网络模型,所述多任务学习网络模型包括主干网络、第一子网络和第二子网络,所述第一子网络和第二子网络分别与所述主干网络连接,所述主干网络包括依次连接的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层,所述第一卷积层、第二卷积层、第三卷积层、第四卷积层的卷积核大小均为3×3,步长为1,填充为1,通道数分别为64、64、128、128,所述第一子网络包括依次连接的第五卷积层、第六卷积层和三个第一全连接层,所述第五卷积层和第六卷积层的卷积核大小均为1×1,步长为1,填充为1,通道数分别为256、256,3个第一全连接层的神经元数分别为16384、512、2或者6,dropout比率为0.3,所述第二子网络包括依次连接的第七卷积层、第八卷积层和三个第二全连接层,所述第七卷积层和第八卷积层的卷积核大小均为1×1,步长为1,填充为1,通道数分别为256、256,三个第二全连接层的神经元数分别为16384、512、4,dropout比率为0.25,所述主干网络用于提取CU特征,将所述CU特征输入所述第一子网络,预测得到CU划分类型及其对应的预测概率,将所述CU特征输入所述第二子网络中,预测得到编码模式及其对应的预测概率,将所述CU划分类型作为预测结果或者根据所述CU划分类型及其对应的预测概率、编码模式及其对应的预测概率和临近CU的划分类型综合确定预测结果,具体包括:响应于确定不存在所述CU划分类型和编码模式相矛盾的情况,则将所述CU划分类型作为预测结果;响应于确定存在所述CU划分类型和编码模式相矛盾的情况,则根据所述CU划分类型及其对应的预测概率、编码模式及其对应的预测概率和临近CU的划分类型进行联合判断,确定所述预测结果,具体包括:响应于确定所述CU划分类型为不划分,所述编码模式为不分配模式,则根据所述编码模式对应的预测概率进行判断,判断所述编码模式的预测概率是否大于阈值且大于所述CU划分类型对应的预测概率,并且此CU的左边和上方CU都进行划分,若是则选择预测概率最大的CU划分类型作为预测结果;响应于确定所述CU划分类型为划分,所述编码模式为除不分配模式以外的其他模式,判断所述CU划分类型对应的预测概率是否大于阈值且大于所述编码模式对应的预测概率,若是则所述预测结果中的CU划分类型为划分;所述多任务学习网络模型的训练过程中所采用的损失函数如下式所示: 其中,α表示主任务CU划分的权重,β表示辅助任务编码模式的权重,w1表示CU划分类型qCU所占的比例,CU划分类型qCU对应数值为不同尺寸CU的标签0,1或0,1,2,3,4,5,pCU表示CU划分类型qCU对应的预测概率;w2表示编码模式qM所占的比例,编码模式qM对应数值为CU的编码模式标签0,1,2,3,pM表示编码模式qM对应的预测概率,N表示训练样本的批次数;在标准编码器的编码过程中,调用所述经训练的多任务学习网络模型,将所述64×64大小的CU输入经训练的多任务学习网络模型,得到第一预测结果,根据所述第一预测结果进行CU划分;响应于确定第一预测结果的CU划分类型为划分,则将所述64×64大小的CU划分为4个32×32大小的CU;将所述32×32大小的CU输入经训练的多任务学习网络模型,得到第二预测结果,根据所述第二预测结果进行CU划分;所述根据所述第一预测结果进行CU划分,具体包括:响应于确定第一预测结果的CU划分类型为不划分,则终止率失真优化搜索过程;响应于确定第一预测结果的CU划分类型为划分,则将64×64大小的CU划分为4个32×32大小的CU;所述根据所述第二预测结果进行CU划分,具体包括:响应于确定第二预测结果的CU划分类型为不划分,则终止率失真优化搜索过程;响应于确定第二预测结果的CU划分类型为四叉树划分,则得到4个16×16大小的CU;响应于确定第二预测结果的CU划分类型为水平二叉树划分,则得到2个16×32大小的CU;响应于确定第二预测结果的CU划分类型为垂直二叉树划分,则得到2个32×16大小的CU;响应于确定第二预测结果的CU划分类型为水平三叉树划分,则得到2个8×32大小的CU和1个16×32大小的CU;响应于确定第二预测结果的CU划分类型为垂直三叉树划分,则得到2个32×8大小的CU和1个32×16大小的CU;响应于确定所述第一预测结果为划分,则将所述64×64大小的CU划分为4个32×32大小的CU。

全文数据:

权利要求:

百度查询: 华侨大学 基于多任务学习的H.266VVC屏幕内容帧内CU快速划分方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。