买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备_江汉大学_202211502343.9 

申请/专利权人:江汉大学

申请日:2022-11-28

公开(公告)日:2024-04-19

公开(公告)号:CN115883869B

主分类号:H04N21/233

分类号:H04N21/233;G06N3/0464;G06N3/0455;G06N3/047;G06N3/08;H04N21/234;H04N21/2343;H04N21/439;H04N21/44;H04N21/4402

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2023.04.18#实质审查的生效;2023.03.31#公开

摘要:本申请提供了基于SwinTransformer的视频帧插帧模型的处理方法、装置以及处理设备,用于对视频帧插帧模型的训练提供一种新颖的训练架构,如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧,显著降低突兀感,可以获得更加丝滑流畅的视频播放体验。

主权项:1.一种基于SwinTransformer的视频帧插帧模型的处理方法,其特征在于,所述方法包括:获取样本集合,其中,所述样本集合包括不同的样本视频,所述样本集合还包括不同的样本音频,所述不同的样本视频与所述不同的样本音频一一对应;提取所述不同的样本音频的音频特征,其中,所述音频特征包括频谱包络MFCC、频域特征FBANK、基频pitch和清音特征;对所述音频特征进行编码,得到高阶音频特征;通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征,其中,每一层所述神经网络输出一层所述视频帧时空特征;以所述不同的样本视频中的相邻奇数视频帧为基础,结合对应三层的所述视频帧时空特征以及所述高阶音频特征,训练神经网络模型预测所述相邻奇数视频帧之间的中间帧,完成模型训练后得到视频帧插帧模型,其中,所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧,以实现预设帧数的视频插帧效果;所述通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征,包括:在基于所述SwinTransformer的编码器中,对不同样本视频中的相邻奇数视频帧进行卷积处理,得到图片特征;将所述图片特征沿中间切分为大小相同的四个部分,对所述四个部分分别计算注意力以得到包含局部空间信息的第一空间特征,再将所述四个部分进一步拆分并交换位置,得到新的大小相同的四个部分,重新计算新的局部注意力特征,以得到包含所述局部空间信息和全局空间信息的第二空间特征;对所述不同样本视频中的相邻奇数视频帧按照时间维度进行拼接,根据像素点个数对拼接结果进行拆分,计算所述第一空间特征和所述第二空间特征对应像素点之间的时间注意力特征;将通过所述基于SwinTransformer的编码器四次同样处理得到的四层的时空特征,使用三层基于所述SwinTransformer的解码器进行解码,得到三层的所述视频帧时空特征,其中,所述时空特征包括所述第一空间特征、所述第二空间特征和所述时间注意力特征,第一层的所述时空特征通过第一层的解码器进行解码,第二层的所述时空特征通过第二层的解码器进行解码,第三层的所述时空特征和第四层的所述时空特征通过第三层的解码器进行解码;所述预测所述相邻奇数视频帧之间的中间帧的过程中,包括:针对所述相邻奇数视频帧对应的每一层的所述视频帧时空特征,使用全连接层进行特征映射,得到特征映射结果;将所述特征映射结果和对应层的所述高阶音频特征进行相加,并用另外的全连接层进行特征映射,继续用softmax层进行归一化,得到新的特征映射结果,将所述新的特征映射结果与所述特征映射结果相乘再加所述特征映射结果,得到融合特征,每一层的融合特征作为对应层预测的中间帧,第三层的所述融合特征一同与第二层所述特征映射结果、所述高阶音频特进行相加,第二层的所述融合特征一同与所述第一层的所述特征映射结果、所述高阶音频特进行相加,第一层的融合特征作为最终输出的所述中间帧。

全文数据:

权利要求:

百度查询: 江汉大学 基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。