买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于改进的CPM-Nets的短视频分类方法_山东建筑大学_202211178732.0 

申请/专利权人:山东建筑大学

申请日:2022-09-26

公开(公告)日:2023-02-03

公开(公告)号:CN115687695A

主分类号:G06F16/75

分类号:G06F16/75;G06N3/084;G06N3/0464

优先权:

专利状态码:失效-发明专利申请公布后的撤回

法律状态:2023.09.01#发明专利申请公布后的撤回;2023.02.21#实质审查的生效;2023.02.03#公开

摘要:一种基于改进的CPM‑Nets的短视频分类方法,充分考虑多模态语义强度不一致问题,并将其充分融入CPM‑Nets多模态缺失数据补全算法中。根据各模态预训练分类网络提取各模态的特征并计算该模态的语义强度,将其作为重构权重。在重构过程中分别为视觉模态、声音模态和文本模态赋予相应权重,使其重构过程最大程度保留各模态之间的一致性和互补性。

主权项:1.一种基于改进的CPM-Nets的短视频分类方法,其特征在于,包括如下步骤:a在短视频公开数据集中获取模态完整的N个短视频样本,N个短视频样本进行预处理;b将N个短视频样本的视觉模态数据按照每隔5帧取1帧的方式,提取视频关键帧,将所有视频关键帧输入到VGG16网络中,输出得到O维图像特征,取各帧图像特征的平均值作为视觉特征将N个短视频样本的音频数据通过音轨提取方法分离出来,将分离后的音轨通过去噪自编码器提取P维音频特征将N个短视频样本的文本数据通过Sentence2Vector提取Q维文本特征c设置视觉模态预训练分类模型Net-v、声音模态预训练分类模型Net-t、文本模态预训练分类模型Net-a,视觉预训练分类模型Net-v、声音预训练分类模型Net-t、文本预训练分类模型Net-a均依次由第一全连接层、第二全连接层、sigmoid激活函数层构成,将N个短视频样本划分为训练集和测试集,将训练集中的视觉模态特征输入到视觉模态预训练分类模型Net-v中得到视觉模态的语义表示其中σ为sigmoid激活函数,ε2为松弛变量,为视觉模态预训练分类模型Net-v中第一全连接层所对应的权重,为第二全连接层所对应的权重,为视觉模态预训练分类模型Net-v中第一全连接层所对应的偏置,为第二全连接层所对应的偏置,将训练集中的音频特征输入到声音模态预训练分类模型Net-t中得到声音模态的语义表示其中为声音模态预训练分类模型Net-a中第一全连接层所对应的权重,为第二全连接层所对应的权重,为声音模态预训练分类模型Net-a中第一全连接层所对应的偏置,为第二全连接层所对应的偏置,将训练集中的文本特征输入得到文本模态预训练分类模型Net-a中得到文本模态的语义表示其中为文本模态预训练分类模型Net-t中第一全连接层所对应的权重,为第二全连接层所对应的权重,为文本模态预训练分类模型Net-t中第一全连接层所对应的偏置,为第二全连接层所对应的偏置;d分别计算得到视觉模态语义强弱度声音模态语义强弱度文本模态语义强弱度e初始化N个短视频样本在潜在空间h中的潜在表示hN,将潜在表示hN通过三个神经网络反向重构到视觉特征声音特征文本特征f计算得到权重嵌入重构损失lrecon;g通过公式计算得到分类器ghN,βc,式中Y为N个短视频样本的类标签集合,Ty为第y类标签所对应的潜在表示集合,Eh~Ty为潜在空间h符合潜在表示集合Ty的分布,为以βc为参数的潜在表示的特征映射函数,T为转置;h计算得到分类损失lclass;i通过公式L=lrecon+αlclass计算得到总损失L,式中α为平衡因子;j通过反向传播算法利用总损失L分别对视觉模态预训练分类模型Net-v、声音模态预训练分类模型Net-t、文本模态预训练分类模型Net-a进行训练,得到视觉模态训练分类模型Net-v、声音模态训练分类模型Net-t、文本模态训练分类模型Net-a;k将测试视频输入视觉模态训练分类模型Net-v、声音模态训练分类模型Net-t、文本模态训练分类模型Net-a,得到测试视频的潜在表示;l将测试视频的潜在表示输入分类器ghN,βc中,得到分类结果。

全文数据:

权利要求:

百度查询: 山东建筑大学 一种基于改进的CPM-Nets的短视频分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。