【发明授权】基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备_江汉大学_202211502343.9

申请/专利权人：江汉大学

申请日：2022-11-28

公开（公告）日：2024-04-19

公开（公告）号：CN115883869B

主分类号：H04N21/233

分类号：H04N21/233;G06N3/0464;G06N3/0455;G06N3/047;G06N3/08;H04N21/234;H04N21/2343;H04N21/439;H04N21/44;H04N21/4402

优先权：

专利状态码：有效-授权

法律状态：2024.04.19#授权;2023.04.18#实质审查的生效;2023.03.31#公开

摘要：本申请提供了基于SwinTransformer的视频帧插帧模型的处理方法、装置以及处理设备，用于对视频帧插帧模型的训练提供一种新颖的训练架构，如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更加丝滑流畅的视频播放体验。

主权项：1.一种基于SwinTransformer的视频帧插帧模型的处理方法，其特征在于，所述方法包括：获取样本集合，其中，所述样本集合包括不同的样本视频，所述样本集合还包括不同的样本音频，所述不同的样本视频与所述不同的样本音频一一对应；提取所述不同的样本音频的音频特征，其中，所述音频特征包括频谱包络MFCC、频域特征FBANK、基频pitch和清音特征；对所述音频特征进行编码，得到高阶音频特征；通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征，其中，每一层所述神经网络输出一层所述视频帧时空特征；以所述不同的样本视频中的相邻奇数视频帧为基础，结合对应三层的所述视频帧时空特征以及所述高阶音频特征，训练神经网络模型预测所述相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧，以实现预设帧数的视频插帧效果；所述通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征，包括：在基于所述SwinTransformer的编码器中，对不同样本视频中的相邻奇数视频帧进行卷积处理，得到图片特征；将所述图片特征沿中间切分为大小相同的四个部分，对所述四个部分分别计算注意力以得到包含局部空间信息的第一空间特征，再将所述四个部分进一步拆分并交换位置，得到新的大小相同的四个部分，重新计算新的局部注意力特征，以得到包含所述局部空间信息和全局空间信息的第二空间特征；对所述不同样本视频中的相邻奇数视频帧按照时间维度进行拼接，根据像素点个数对拼接结果进行拆分，计算所述第一空间特征和所述第二空间特征对应像素点之间的时间注意力特征；将通过所述基于SwinTransformer的编码器四次同样处理得到的四层的时空特征，使用三层基于所述SwinTransformer的解码器进行解码，得到三层的所述视频帧时空特征，其中，所述时空特征包括所述第一空间特征、所述第二空间特征和所述时间注意力特征，第一层的所述时空特征通过第一层的解码器进行解码，第二层的所述时空特征通过第二层的解码器进行解码，第三层的所述时空特征和第四层的所述时空特征通过第三层的解码器进行解码；所述预测所述相邻奇数视频帧之间的中间帧的过程中，包括：针对所述相邻奇数视频帧对应的每一层的所述视频帧时空特征，使用全连接层进行特征映射，得到特征映射结果；将所述特征映射结果和对应层的所述高阶音频特征进行相加，并用另外的全连接层进行特征映射，继续用softmax层进行归一化，得到新的特征映射结果，将所述新的特征映射结果与所述特征映射结果相乘再加所述特征映射结果，得到融合特征，每一层的融合特征作为对应层预测的中间帧，第三层的所述融合特征一同与第二层所述特征映射结果、所述高阶音频特进行相加，第二层的所述融合特征一同与所述第一层的所述特征映射结果、所述高阶音频特进行相加，第一层的融合特征作为最终输出的所述中间帧。

全文数据：

权利要求：

百度查询：江汉大学基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：人脸活体检测方法、装置、设备及存储介质_平安银行股份有限公司_202111148144.8

下一篇：一种多孔有序基体材料及其制备方法和应用_思摩尔国际控股有限公司_202211446370.9

相关技术

人脸活体检测方法、装置、设备及存储介质_平安银行股份有限公司_202111148144.8

一种多孔有序基体材料及其制备方法和应用_思摩尔国际控股有限公司_202211446370.9

一种透气型座椅_佛山市博客家具有限公司_202323189004.2

一种防水塑壳电池模组_深圳市懋略技术研究有限公司_202211448332.7

一种文本分类方法及装置_中国电子进出口有限公司_202011400717.7

一种气相催化制备七氟异丁腈的方法_浙江省化工研究院有限公司_202211444469.5

聚羟基烷酸酯的制造方法及其利用_株式会社钟化_202080065317.7

一种基于单细胞拉曼技术的一体化益生菌质检方法_中国科学院青岛生物能源与过程研究所_202211426753.X

机器翻译方法、目标翻译模型训练方法及相关程序和设备_腾讯科技(深圳)有限公司_202210384885.4

下沉式海上制氢装置_中国石油管道局工程有限公司_202211444745.8

一种目标检测及其网络的训练方法、装置_北京达佳互联信息技术有限公司_202010544452.1

一种视觉场景标志检测与识别方法及装置_北京工业大学_202111205085.3

处理相关技术

基板处理装置和基板处理方法_东京毅力科创株式会社_202311503872.5

信息处理系统、信息处理装置以及信息处理方法_日产自动车株式会社_201880097197.1

一种尾气处理装置和尾气处理方法_重庆康佳光电技术研究院有限公司_202211445927.7

信息处理装置以及信息处理方法_丰田自动车株式会社_202311485829.0

图像处理装置、图像处理方法以及存储介质_索尼公司_201880091137.9

衣物处理设备_青岛海尔洗衣机有限公司_202211447973.0

尾气处理系统_洛阳市三金化工塑料有限公司_202323037377.8

命令处理方法和装置_华为技术有限公司_202211452199.2

处理装置以及记录装置_精工爱普生株式会社_202311529157.9

图像处理方法及装置_荣耀终端有限公司_202211454684.3

插相关技术

高带宽DDR双列直插式存储模块、存储系统及其操作方法_芯动微电子科技(武汉)有限公司_202211456287.X

一种插片机插片结构_无锡市南亚科技有限公司_202322735688.5

玻璃插芯及插芯的制作方法_苏州天孚光通信股份有限公司_202410070784.9

防火插排_中国联合网络通信集团有限公司_202322425589.7

一种智能插纸机_苏州凯尔博科技股份有限公司_202311714528.0

一种快插组件_武汉飞恩微电子有限公司_202321075411.8

一种插针系统_大族激光科技产业集团股份有限公司_201910586653.5

全自动抛光盘插皮机_东莞市盛豪机械科技有限公司_201711068023.6

一种插片端子_乐清市正方电气有限公司_202322821480.5

一种PCB电镀插架车装置_龙岩金时裕电子有限公司_202322980102.1

模型相关技术

业务体验模型的确定方法及通信装置_华为技术有限公司_202080103972.7

类脑计算元架构模型以及包括其的类脑计算设备_中国人民解放军总医院_202211451212.2

语音合成方法、模型训练方法、装置、设备及存储介质_科大讯飞股份有限公司_202211448746.X

用于管理多任务模型的方法、装置、电子设备和存储介质_北京嘀嘀无限科技发展有限公司_202211457233.5

图神经网络模型生成方法、预测方法及装置_第四范式(北京)技术有限公司_202211446644.4

模型训练方法、数据检索方法、影像数据检索方法和装置_北京京东拓先科技有限公司_202211122932.4

基于反向翻译的中文幽默分类模型的构建方法_大连民族大学_202110088848.4

机器翻译方法、目标翻译模型训练方法及相关程序和设备_腾讯科技(深圳)有限公司_202210384885.4

一种人脸边缘智能应用整体微调隐私保护模型与方法_北京信息科技大学_202211644888.3

虚拟人像生成模型训练方法、装置、设备及存储介质_广州视源电子科技股份有限公司_202211447009.8

龙图腾网&IPTOP

【发明授权】基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备_江汉大学_202211502343.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务