买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自适应可分离卷积的网络直播视频稳像方法_北京工业大学_202111429346.X 

申请/专利权人:北京工业大学

申请日:2021-11-29

公开(公告)日:2024-04-02

公开(公告)号:CN114339030B

主分类号:H04N23/68

分类号:H04N23/68;H04N19/42;H04N19/503;H04N21/2187;G06V10/80;G06V10/82;G06T7/269;G06N3/0464;G06N3/0455;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明提供了一种基于自适应可分离卷积的网络直播视频稳像方法。该方法包括:建立视频帧样本库、网络模型搭建、网络训练、视频稳像。将所述得到的训练数据集输入视频稳像网络中,得到所述稳像模型输出的稳定视频帧;其中,所述稳像模型利用自适应可分离卷积和可变形卷积,将预测得到的卷积核应用在输入的两帧连续帧上,以生成稳定的中间帧。本发明通过直接生成中间帧的方法进行稳像,避免了对稳像后的视频帧进行裁剪,从而保持原始视频的分辨率。

主权项:1.一种基于自适应可分离卷积的网络直播视频稳像方法,其特征在于:建立视频帧样本库:包括对训练集和测试集的构建;网络模型搭建:包括调用训练好的PWC-Net网络;设计中间帧特征提取网络,提取视频帧特征;和自适应可分离卷积网络的设计;网络训练:包括训练策略使用以及获取损失函数;视频稳像:视频稳像阶段,使用自适应可分离卷积网络,将抖动的视频,以图像帧的方式送入网络,其输出结果为生成的稳定视频帧;所述的建立视频帧样本库,具体步骤如下:使用DeepStab数据集构建所使用的训练集和测试集;所述的网络模型搭建,具体步骤如下:1调用预训练的光流预测网络PWC-Net对输入网络的图像中添加了帧间的运动信息,该运动信息使用预训练的光流预测网络PWC-Net进行预测,预测两帧间的像素级别的光流表示;首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新;该部分网络输入为需要获取帧间运动信息的两帧连续视频帧;2帧间特征提取网络的设计采用的帧间特征提取网络由编码器、解码器与跳跃连接组成;该部分网络输入为PWC-Net所提取的光流,与两帧视频帧在通道方向上的拼接;网络首先将输入送入编码器;编码器使用卷积层Conv_1进行特征融合;将融合后的特征图依次送入池化层Pool_1、卷积层Conv_2、池化层Pool_2、卷积层Conv_3、池化层Pool_3、卷积层Conv_4、池化层Pool_4、卷积层Conv_5、池化层Pool_5;将编码器输出的特征图送入解码器;在解码器中,首先将解码器的输出送入卷积层Conv_6并进行上采样;对上采样的输出,与解码器中Conv_5的输出相加,送入卷积层Conv_7并进行上采样;对上采样的输出,与解码器中Conv_4的输出相加,送入卷积层Conv_8并进行上采样;对上采样的输出,与解码器中Conv_3的输出相加,送入卷积层Conv_9并进行上采样;对上采样的输出,与解码器中Conv_2的输出相加,得到提取的帧间特征;网络中所有卷积层激活函数使用PReLUParametricRectifiedLinearUnit激活函数;所有上采样使用两倍双线性插值;所有池化层使用平均池化;3自适应可分离卷积网络的设计采用的自适应可分离卷积网络由7路并行的卷积分支;该部分网络输入为帧间特征提取网络的输出;将网络输入依次送入卷积层Conv_1、上采样、卷积层Conv_2、Softmax激活,得到卷积核权重W1;将网络输入依次送入卷积层Conv_3、上采样、卷积层Conv_4,得到卷积核权重的水平方向的偏置α1;将网络输入依次送入卷积层Conv_5、上采样、卷积层Conv_6,得到卷积核权重的垂直方向的偏置β1;将网络输入依次送入卷积层Conv_7、上采样、卷积层Conv_8、Sigmoid激活,得到融合模板M;将网络输入依次送入卷积层Conv_9、上采样、卷积层Conv_10、Softmax激活,得到卷积核权重W2;将网络输入依次送入卷积层Conv_11、上采样、卷积层Conv_12,得到卷积核权重的水平方向的偏置α2;将网络输入依次送入卷积层Conv_13、上采样、卷积层Conv_14,得到卷积核权重的垂直方向的偏置β2;网络中所有卷积层激活函数使用ReLURectifiedLinearUnit激活函数;所有上采样使用两倍双线性插值;采用了可变形卷积,其将矩形的卷积核覆盖区域中的每一个权重位置都进行随机的偏移;通过使用网络预测的卷积核权重和卷积核权重偏置,对原始视频帧进行可变形卷积,生成预测的中间帧;所述的网络训练,具体步骤如下:1训练策略的使用使用自监督方式训练网络;自监督的方法需要从训练集中生成伪Ground-truth监督网络训练;生成伪Ground-truth的方法为:在原始视频帧中随机选取一个区域,并随机选取一个方向,在该方向上偏移一段随机距离d,并保证该段距离大于0,小于18的选取区域大小,从而生成伪Ground-truth,用于后续损失的计算;2损失函数获取使用上述过程生成的伪Ground-truth进行损失函数计算;使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数;所述的视频稳像,具体步骤如下:网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试;将抖动的视频所提取的视频帧,逐帧送入网络;网络每次送入当前帧和下一帧;网络输出两帧的中间帧;由于网络无法预测视频的第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝;网络运行完成后,生成稳定后的视频帧;所述的网络模型搭建分为3个步骤,具体步骤如下:1调用预训练的光流预测网络PWC-Net;使用PWC-Net光流预测网络预测两帧视频帧间的运动信息;首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新;在网络训练时,使用两个相同的孪生PWC-Net网络;第一个PWC-Net网络输入为fi、fi-1,输出为F1;第二个PWC-Net网络输入为fi、fi+1,输出为F2;其中,fi表示训练集帧元组中的当前帧,fi-1表示当前帧的前一帧,fi+1表示当前帧的后一帧,F1表示fi-1到fi之间的像素级别的光流信息,F2表示fi+1到fi之间的像素级别的光流信息;PWC-Net输出的光流信息特征图大小全部为H×W×2,其中,H和W分别代表输入图像的高和宽,每一个像素点位置的运动信息使用二维的向量表示;2帧间特征提取网络的设计所设计的帧间特征提取网络架构中每层参数如表1所示;该部分网络输入为训练集中选取的视频帧元组中的关键帧的前一帧fi-1,其大小为H×W×3;关键帧的后一帧fi+1,其大小为H×W×3、fi-1到fi之间的像素级别的光流信息F1,其大小为H×W×2;和fi+1到fi之间的像素级别的光流信息F2,其大小为H×W×2的拼接;拼接后的特征图大小为H×W×10;对于拼接后的特征图,首先送入编码器;之后将编码器的输出送入解码器;最后将解码器的输出作为该部分网络所提取的帧间特征;将编码器的输入,输入到Conv_1,在Conv_1中,先经过32个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为H×W×32大小的特征图;将Conv_1的输出,输入到Pool_1,在Pool_1中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_1的输出,输入到Conv_2,在Conv_2中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;将Conv_2的输出,输入到Pool_2,在Pool_2中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_2的输出,输入到Conv_3,在Conv_3中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;将Conv_3的输出,输入到Pool_3,在Pool_3中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_3的输出,输入到Conv_4,在Conv_4中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;将Conv_4的输出,输入到Pool_4,在Pool_4中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_4的输出,输入到Conv_5,在Conv_5中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;将Conv_5的输出,输入到Pool_5,在Pool_5中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_5的输出作为编码器的输出;将解码器的输入,输入到Conv_6,在Conv_6中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;对Conv_6的输出进行两倍双线性插值,得到大小为大小的特征图;将双线性插值的输出,与解码器中Conv_5的输出进行像素级别的相加之后,输入到Conv_7,在Conv_7中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;对Conv_7的输出进行两倍双线新插值,得到大小为大小的特征图;将双线性插值的输出,与解码器中Conv_4的输出进行像素级别的相加之后,输入到Conv_8,在Conv_8中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;对Conv_8的输出进行两倍双线新插值,得到大小为大小的特征图;将双线性插值的输出,与解码器中Conv_3的输出进行像素级别的相加之后,输入到Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;对Conv_9的输出进行两倍双线新插值,得到大小为大小的特征图;将双线性插值的输出,与解码器中Conv_2的输出进行像素级别的相加,所得到的特征图作为解码器的输出;表1帧间特征提取网络中每层参数 表2自适应可分离卷积中每层参数 3自适应可分离卷积网络的设计结构中每层参数如表2所示;该部分网络输入为帧间特征提取网络得输出特征图,特征图的大小为该部分网络由7路并行的卷积分支组成;将网络的输入特征图输入第1路分支,首先经过Conv_1,在Conv_1中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_1的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_2,在Conv_2中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_2的输出进行Softmax激活;得到大小为H×W×25的卷积核权重W1;将网络的输入特征图输入第2路分支,首先经过Conv_3,在Conv_3中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_3的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_4,在Conv_4中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α1;将网络的输入特征图输入第3路分支,首先经过Conv_5,在Conv_5中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_5的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_6,在Conv_6中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β1;将网络的输入特征图输入第4路分支,首先经过Conv_7,在Conv_7中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_7的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_8,在Conv_8中,经过1个步长为1的3×3大小的卷积核卷积,得到大小为H×W×1的特征图;最后对Conv_8的输出进行Sigmoid激活;得到大小为H×W×1的模板M;将网络的输入特征图输入第5路分支,首先经过Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_9的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_10,在Conv_10中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_10的输出进行Softmax激活;得到大小为×W×25的卷积核权重W2;将网络的输入特征图输入第6路分支,首先经过Conv_11,在Conv_11中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_11的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_12,在Conv_12中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α2;将网络的输入特征图输入第7路分支,首先经过Conv_13,在Conv_13中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_13的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_14,在Conv_14中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β2;网络预测的卷积核权重W1、卷积核权重的水平方向的偏置α1和垂直方向的偏置β1,用于对fi+1帧进行卷积;网络预测的卷积核权重W2、卷积核权重的水平方向的偏置α2和垂直方向的偏置β2,用于对fi-1帧进行卷积;网络预测的模板M用于融合卷积后的图像,生成中间帧;对于fi+1帧,对于图像上的每一个像素点,在卷积核权重W1、水平方向的偏置α1和垂直方向的偏置β1上都分别对应一个25维的向量;首先将权重W1中对应的25维向量重组成一个5×5大小的卷积核,对于每一个权重,在α1和β1中都对应一个水平位置和垂直位置的偏移;将经过偏移后的卷积核与该像素周围区域进行卷积;对图像每一个像素点及其周围区域进行卷积后,得到特征图Fi+1;同样,对于fi-1帧,使用W2、α2和β2进行相同的操作,得到特征图Fi-1;为了融合两幅特征图中的特征以生成中间帧fp,使用上述过程预测的模板M进行融合;上述自适应可分离卷积过程可由式1表示; 其中表示可变形卷积,γ·表示使用模板M进行融合,I表示大小与M相同的单位矩阵;所述的网络训练为2个步骤,具体步骤如下:1训练策略的使用利用基于DeepStab数据集建立的训练集训练上述搭建的网络;首先在训练集中随机选取视频帧元组;对于元组中的三帧视频帧随机选取位置、大小相同的区域,得到fi-1、fi、fi+1;对于fi,在原始视频帧中随机选取上下左右中的一个方向,在该方向上以选取区域为中心偏移一段随机距离d,并保证该段距离大于0,小于18的选取区域大小;对偏移后的区域在原始帧中进行裁剪,生成fpesudo;之后,将fi-1、fi、fi+1送入网络,网络预两帧的中间帧fp;最后,计算fp和fpesudo之间的损失,并更新梯度;2损失函数获取使用上述过程生成的伪Ground-truth进行损失函数计算;为了使网络生成接近真实的中间帧,使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数;其中VGG感知损失函数使用ImageNet预训练的VGG19中Conv4_3层输出的特征图;损失函数可由式2表示;Loss=||fp-fpesudo||1+||μfp-μfpesudo||12其中μ·表示VGG19中Conv4_3层输出的特征图,||·||1表示计算L1范数;所述的视频稳像,具体步骤如下:网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试;将抖动的视频所提取的视频帧,逐帧送入网络;网络每次送入当前帧fi和下一帧fi+1;由于没有中间帧,在PWC-Net中,分别预测当前帧fi到下一帧fi+1之间的像素级别的光流信息,作为F1;和下一帧fi+1到当前帧fi之间的像素级别的光流信息,作为F2;在自适应可分离卷积阶段,使用W1、α1和β1对fi进行卷积;使用W2、α2和β2对fi+1进行卷积;由于网络无法预测第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝;网络运行完成后,生成稳定后的视频帧。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于自适应可分离卷积的网络直播视频稳像方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。