【发明授权】一种基于自适应可分离卷积的网络直播视频稳像方法_北京工业大学_202111429346.X

导航：龙图腾网> 最新专利技术> 一种基于自适应可分离卷积的网络直播视频稳像方法_北京工业大学_202111429346.X

申请/专利权人：北京工业大学

申请日：2021-11-29

公开（公告）日：2024-04-02

公开（公告）号：CN114339030B

主分类号：H04N23/68

分类号：H04N23/68;H04N19/42;H04N19/503;H04N21/2187;G06V10/80;G06V10/82;G06T7/269;G06N3/0464;G06N3/0455;G06N3/0895

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要：本发明提供了一种基于自适应可分离卷积的网络直播视频稳像方法。该方法包括：建立视频帧样本库、网络模型搭建、网络训练、视频稳像。将所述得到的训练数据集输入视频稳像网络中，得到所述稳像模型输出的稳定视频帧；其中，所述稳像模型利用自适应可分离卷积和可变形卷积，将预测得到的卷积核应用在输入的两帧连续帧上，以生成稳定的中间帧。本发明通过直接生成中间帧的方法进行稳像，避免了对稳像后的视频帧进行裁剪，从而保持原始视频的分辨率。

主权项：1.一种基于自适应可分离卷积的网络直播视频稳像方法，其特征在于：建立视频帧样本库：包括对训练集和测试集的构建；网络模型搭建：包括调用训练好的PWC-Net网络；设计中间帧特征提取网络，提取视频帧特征；和自适应可分离卷积网络的设计；网络训练：包括训练策略使用以及获取损失函数；视频稳像：视频稳像阶段，使用自适应可分离卷积网络，将抖动的视频，以图像帧的方式送入网络，其输出结果为生成的稳定视频帧；所述的建立视频帧样本库，具体步骤如下：使用DeepStab数据集构建所使用的训练集和测试集；所述的网络模型搭建，具体步骤如下：1调用预训练的光流预测网络PWC-Net对输入网络的图像中添加了帧间的运动信息，该运动信息使用预训练的光流预测网络PWC-Net进行预测，预测两帧间的像素级别的光流表示；首先调用PWC-Net网络模型；之后加载训练好的网络权重；最后固定网络权重，使其在后续的网络训练中不进行梯度更新；该部分网络输入为需要获取帧间运动信息的两帧连续视频帧；2帧间特征提取网络的设计采用的帧间特征提取网络由编码器、解码器与跳跃连接组成；该部分网络输入为PWC-Net所提取的光流，与两帧视频帧在通道方向上的拼接；网络首先将输入送入编码器；编码器使用卷积层Conv_1进行特征融合；将融合后的特征图依次送入池化层Pool_1、卷积层Conv_2、池化层Pool_2、卷积层Conv_3、池化层Pool_3、卷积层Conv_4、池化层Pool_4、卷积层Conv_5、池化层Pool_5；将编码器输出的特征图送入解码器；在解码器中，首先将解码器的输出送入卷积层Conv_6并进行上采样；对上采样的输出，与解码器中Conv_5的输出相加，送入卷积层Conv_7并进行上采样；对上采样的输出，与解码器中Conv_4的输出相加，送入卷积层Conv_8并进行上采样；对上采样的输出，与解码器中Conv_3的输出相加，送入卷积层Conv_9并进行上采样；对上采样的输出，与解码器中Conv_2的输出相加，得到提取的帧间特征；网络中所有卷积层激活函数使用PReLUParametricRectifiedLinearUnit激活函数；所有上采样使用两倍双线性插值；所有池化层使用平均池化；3自适应可分离卷积网络的设计采用的自适应可分离卷积网络由7路并行的卷积分支；该部分网络输入为帧间特征提取网络的输出；将网络输入依次送入卷积层Conv_1、上采样、卷积层Conv_2、Softmax激活，得到卷积核权重W1；将网络输入依次送入卷积层Conv_3、上采样、卷积层Conv_4，得到卷积核权重的水平方向的偏置α1；将网络输入依次送入卷积层Conv_5、上采样、卷积层Conv_6，得到卷积核权重的垂直方向的偏置β1；将网络输入依次送入卷积层Conv_7、上采样、卷积层Conv_8、Sigmoid激活，得到融合模板M；将网络输入依次送入卷积层Conv_9、上采样、卷积层Conv_10、Softmax激活，得到卷积核权重W2；将网络输入依次送入卷积层Conv_11、上采样、卷积层Conv_12，得到卷积核权重的水平方向的偏置α2；将网络输入依次送入卷积层Conv_13、上采样、卷积层Conv_14，得到卷积核权重的垂直方向的偏置β2；网络中所有卷积层激活函数使用ReLURectifiedLinearUnit激活函数；所有上采样使用两倍双线性插值；采用了可变形卷积，其将矩形的卷积核覆盖区域中的每一个权重位置都进行随机的偏移；通过使用网络预测的卷积核权重和卷积核权重偏置，对原始视频帧进行可变形卷积，生成预测的中间帧；所述的网络训练，具体步骤如下：1训练策略的使用使用自监督方式训练网络；自监督的方法需要从训练集中生成伪Ground-truth监督网络训练；生成伪Ground-truth的方法为：在原始视频帧中随机选取一个区域，并随机选取一个方向，在该方向上偏移一段随机距离d，并保证该段距离大于0，小于18的选取区域大小，从而生成伪Ground-truth，用于后续损失的计算；2损失函数获取使用上述过程生成的伪Ground-truth进行损失函数计算；使用的损失函数包含两个部分：L1损失函数和VGG感知损失函数；所述的视频稳像，具体步骤如下：网络训练完成后，使用上述样本库中所构建的测试数据集进行视频稳像测试；将抖动的视频所提取的视频帧，逐帧送入网络；网络每次送入当前帧和下一帧；网络输出两帧的中间帧；由于网络无法预测视频的第一帧和最后一帧，因此将抖动视频的第一帧和最后一帧直接进行拷贝；网络运行完成后，生成稳定后的视频帧；所述的网络模型搭建分为3个步骤，具体步骤如下：1调用预训练的光流预测网络PWC-Net；使用PWC-Net光流预测网络预测两帧视频帧间的运动信息；首先调用PWC-Net网络模型；之后加载训练好的网络权重；最后固定网络权重，使其在后续的网络训练中不进行梯度更新；在网络训练时，使用两个相同的孪生PWC-Net网络；第一个PWC-Net网络输入为fi、fi-1，输出为F1；第二个PWC-Net网络输入为fi、fi+1，输出为F2；其中，fi表示训练集帧元组中的当前帧，fi-1表示当前帧的前一帧，fi+1表示当前帧的后一帧，F1表示fi-1到fi之间的像素级别的光流信息，F2表示fi+1到fi之间的像素级别的光流信息；PWC-Net输出的光流信息特征图大小全部为H×W×2，其中，H和W分别代表输入图像的高和宽，每一个像素点位置的运动信息使用二维的向量表示；2帧间特征提取网络的设计所设计的帧间特征提取网络架构中每层参数如表1所示；该部分网络输入为训练集中选取的视频帧元组中的关键帧的前一帧fi-1，其大小为H×W×3；关键帧的后一帧fi+1，其大小为H×W×3、fi-1到fi之间的像素级别的光流信息F1，其大小为H×W×2；和fi+1到fi之间的像素级别的光流信息F2，其大小为H×W×2的拼接；拼接后的特征图大小为H×W×10；对于拼接后的特征图，首先送入编码器；之后将编码器的输出送入解码器；最后将解码器的输出作为该部分网络所提取的帧间特征；将编码器的输入，输入到Conv_1，在Conv_1中，先经过32个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为H×W×32大小的特征图；将Conv_1的输出，输入到Pool_1，在Pool_1中，经过步长为2的3×3大小的平均池化，得到大小为大小的特征图；将Pool_1的输出，输入到Conv_2，在Conv_2中，先经过64个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；将Conv_2的输出，输入到Pool_2，在Pool_2中，经过步长为2的3×3大小的平均池化，得到大小为大小的特征图；将Pool_2的输出，输入到Conv_3，在Conv_3中，先经过128个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；将Conv_3的输出，输入到Pool_3，在Pool_3中，经过步长为2的3×3大小的平均池化，得到大小为大小的特征图；将Pool_3的输出，输入到Conv_4，在Conv_4中，先经过256个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；将Conv_4的输出，输入到Pool_4，在Pool_4中，经过步长为2的3×3大小的平均池化，得到大小为大小的特征图；将Pool_4的输出，输入到Conv_5，在Conv_5中，先经过512个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；将Conv_5的输出，输入到Pool_5，在Pool_5中，经过步长为2的3×3大小的平均池化，得到大小为大小的特征图；将Pool_5的输出作为编码器的输出；将解码器的输入，输入到Conv_6，在Conv_6中，先经过512个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；对Conv_6的输出进行两倍双线性插值，得到大小为大小的特征图；将双线性插值的输出，与解码器中Conv_5的输出进行像素级别的相加之后，输入到Conv_7，在Conv_7中，先经过256个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；对Conv_7的输出进行两倍双线新插值，得到大小为大小的特征图；将双线性插值的输出，与解码器中Conv_4的输出进行像素级别的相加之后，输入到Conv_8，在Conv_8中，先经过128个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；对Conv_8的输出进行两倍双线新插值，得到大小为大小的特征图；将双线性插值的输出，与解码器中Conv_3的输出进行像素级别的相加之后，输入到Conv_9，在Conv_9中，先经过64个步长为1的3×3大小的卷积核卷积，再经过PReLU激活模块，得到大小为大小的特征图；对Conv_9的输出进行两倍双线新插值，得到大小为大小的特征图；将双线性插值的输出，与解码器中Conv_2的输出进行像素级别的相加，所得到的特征图作为解码器的输出；表1帧间特征提取网络中每层参数表2自适应可分离卷积中每层参数 3自适应可分离卷积网络的设计结构中每层参数如表2所示；该部分网络输入为帧间特征提取网络得输出特征图，特征图的大小为该部分网络由7路并行的卷积分支组成；将网络的输入特征图输入第1路分支，首先经过Conv_1，在Conv_1中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_1的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_2，在Conv_2中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的特征图；最后对Conv_2的输出进行Softmax激活；得到大小为H×W×25的卷积核权重W1；将网络的输入特征图输入第2路分支，首先经过Conv_3，在Conv_3中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_3的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_4，在Conv_4中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的卷积核权重横向偏置α1；将网络的输入特征图输入第3路分支，首先经过Conv_5，在Conv_5中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_5的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_6，在Conv_6中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的卷积核权重纵向偏置β1；将网络的输入特征图输入第4路分支，首先经过Conv_7，在Conv_7中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_7的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_8，在Conv_8中，经过1个步长为1的3×3大小的卷积核卷积，得到大小为H×W×1的特征图；最后对Conv_8的输出进行Sigmoid激活；得到大小为H×W×1的模板M；将网络的输入特征图输入第5路分支，首先经过Conv_9，在Conv_9中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_9的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_10，在Conv_10中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的特征图；最后对Conv_10的输出进行Softmax激活；得到大小为×W×25的卷积核权重W2；将网络的输入特征图输入第6路分支，首先经过Conv_11，在Conv_11中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_11的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_12，在Conv_12中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的卷积核权重横向偏置α2；将网络的输入特征图输入第7路分支，首先经过Conv_13，在Conv_13中，先经过64个步长为1的3×3大小的卷积核卷积，再经过ReLU激活模块，得到大小为的特征图；之后对Conv_13的输出进行两倍双线性插值，得到大小为H×W×64的特征图；将双线性插值的输出输入到Conv_14，在Conv_14中，经过25个步长为1的3×3大小的卷积核卷积，得到大小为H×W×25的卷积核权重纵向偏置β2；网络预测的卷积核权重W1、卷积核权重的水平方向的偏置α1和垂直方向的偏置β1，用于对fi+1帧进行卷积；网络预测的卷积核权重W2、卷积核权重的水平方向的偏置α2和垂直方向的偏置β2，用于对fi-1帧进行卷积；网络预测的模板M用于融合卷积后的图像，生成中间帧；对于fi+1帧，对于图像上的每一个像素点，在卷积核权重W1、水平方向的偏置α1和垂直方向的偏置β1上都分别对应一个25维的向量；首先将权重W1中对应的25维向量重组成一个5×5大小的卷积核，对于每一个权重，在α1和β1中都对应一个水平位置和垂直位置的偏移；将经过偏移后的卷积核与该像素周围区域进行卷积；对图像每一个像素点及其周围区域进行卷积后，得到特征图Fi+1；同样，对于fi-1帧，使用W2、α2和β2进行相同的操作，得到特征图Fi-1；为了融合两幅特征图中的特征以生成中间帧fp，使用上述过程预测的模板M进行融合；上述自适应可分离卷积过程可由式1表示；其中表示可变形卷积，γ·表示使用模板M进行融合，I表示大小与M相同的单位矩阵；所述的网络训练为2个步骤，具体步骤如下：1训练策略的使用利用基于DeepStab数据集建立的训练集训练上述搭建的网络；首先在训练集中随机选取视频帧元组；对于元组中的三帧视频帧随机选取位置、大小相同的区域，得到fi-1、fi、fi+1；对于fi，在原始视频帧中随机选取上下左右中的一个方向，在该方向上以选取区域为中心偏移一段随机距离d，并保证该段距离大于0，小于18的选取区域大小；对偏移后的区域在原始帧中进行裁剪，生成fpesudo；之后，将fi-1、fi、fi+1送入网络，网络预两帧的中间帧fp；最后，计算fp和fpesudo之间的损失，并更新梯度；2损失函数获取使用上述过程生成的伪Ground-truth进行损失函数计算；为了使网络生成接近真实的中间帧，使用的损失函数包含两个部分：L1损失函数和VGG感知损失函数；其中VGG感知损失函数使用ImageNet预训练的VGG19中Conv4_3层输出的特征图；损失函数可由式2表示；Loss＝||fp-fpesudo||1+||μfp-μfpesudo||12其中μ·表示VGG19中Conv4_3层输出的特征图，||·||1表示计算L1范数；所述的视频稳像，具体步骤如下：网络训练完成后，使用上述样本库中所构建的测试数据集进行视频稳像测试；将抖动的视频所提取的视频帧，逐帧送入网络；网络每次送入当前帧fi和下一帧fi+1；由于没有中间帧，在PWC-Net中，分别预测当前帧fi到下一帧fi+1之间的像素级别的光流信息，作为F1；和下一帧fi+1到当前帧fi之间的像素级别的光流信息，作为F2；在自适应可分离卷积阶段，使用W1、α1和β1对fi进行卷积；使用W2、α2和β2对fi+1进行卷积；由于网络无法预测第一帧和最后一帧，因此将抖动视频的第一帧和最后一帧直接进行拷贝；网络运行完成后，生成稳定后的视频帧。

全文数据：

权利要求：

百度查询：北京工业大学一种基于自适应可分离卷积的网络直播视频稳像方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

下一篇：一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

相关技术

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种具备快接功能的汽车线束_天津博尔特科技有限公司_202322504460.5

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

网络相关技术

用于标识通信网络中的网络节点的方法和通信网络_罗伯特·博世有限公司_201910574227.X

网络设备的升级_瑞典爱立信有限公司_201780096272.8

在区块链网络中验证交易的方法以及构成该网络的节点_比特飞翔区块链株式会社_201980026000.X

一种移动通信网络辅助广播网络的收发方法及其装置_上海交通大学_202210665237.6

基于多通道图卷积网络的社交网络节点分类方法与系统_扬州大学_202210353954.5

网络恢复方法、装置、设备及存储介质_北京华耀科技有限公司_202210476307.3

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

一种时间敏感网络性能评估方法_中国科学院沈阳自动化研究所_202111441534.4

主动安全网络及构建方法_北京北信源软件股份有限公司_202210505613.5

一种网络加速方法和装置_荣耀终端有限公司_202211284598.2

直播相关技术

一种水稻直播排种器_武汉恩禾农业科技有限责任公司_202322633631.4

直播视频人物跟踪方法、装置、设备及存储介质_广州方硅信息技术有限公司_202210150699.4

一种直播间观众平均停留时长获取方法、介质、系统和设备_厦门蝉羽网络科技有限公司_202110010047.6

基于观光巴士的直播间互动方法、装置、介质以及设备_广州方硅信息技术有限公司_202210334830.2

支持多角度人形跟踪旋转的直播支架_深圳市中惠伟业科技有限公司_202322712112.7

直播间恢复方法、装置、设备及计算机可读存储介质_腾讯科技(深圳)有限公司_202011413795.0

基于音频预播放的直播间推荐方法、系统及计算机设备_广州方硅信息技术有限公司_202210128970.4

直播连麦匹配方法、系统、装置、电子设备及存储介质_广州方硅信息技术有限公司_202210763042.5

直播间的视频信息的显示处理方法、终端、服务器及介质_广州方硅信息技术有限公司_202210476027.2

直播画面生成系统、赛事直播画面的生成方法及装置_腾竞体育文化发展(上海)有限公司_202311833653.3

视频相关技术

视频处理方法、装置及设备_北京字节跳动网络技术有限公司_202110407802.4

数字人视频显示方法及设备_卓世未来(成都)科技有限公司_202410164673.4

用于视频译码的双向预测_VID拓展公司_201980063042.0

视频问答方法及电子设备_华为技术有限公司_202211289300.7

一种道路交通用视频监控装置_中国市政工程中南设计研究总院有限公司_202322498762.6

一种视频设备简化配置方法及系统_天翼物联科技有限公司_202111654279.1

基于RGB视频的物体重建方法和装置_清华大学_202110832398.5

直播间内的视频播放方法、系统、设备及介质_广州方硅信息技术有限公司_202111227464.2

一种电力线路实时视频监控装置_山东鲁发科技有限公司_202322511747.0

基于过滤机制的视频解码方法_天津津航计算技术研究所_202110826187.0

龙图腾网&IPTOP

【发明授权】一种基于自适应可分离卷积的网络直播视频稳像方法_北京工业大学_202111429346.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务