买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种视频跨模态搜索模型训练方法、搜索方法及装置_北京邮电大学_202310882289.3 

申请/专利权人:北京邮电大学

申请日:2023-07-18

公开(公告)日:2024-04-26

公开(公告)号:CN116955699B

主分类号:G06F16/735

分类号:G06F16/735;G06N3/044;G06N3/0442;G06N3/08;G06F16/783

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2023.12.26#实质审查的生效;2023.10.27#公开

摘要:本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置,对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间;被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容,提取首尾帧图像内容,分别进行特征提取后执行特征融合,并通过初始视频语义映射网络映射至公共语义空间;在下游构建相似度比对任务、语义分类任务和模态判别任务,对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练,提升文本和视频两种类型数据在公共语义空间内表示的精确度,并关注到模态内和模态间的关联及差异。

主权项:1.一种视频跨模态搜索模型的训练方法,其特征在于,该方法包括以下步骤:获取多个科技视频以及各科技视频对应的多个视频描述文本;对每个科技视频执行科技视频自动语音识别,将单个科技视频按照演讲者的陈述断句分为多个视频片段;获取视频预处理模块,所述视频预处理模块提取每个视频片段的头帧和尾帧,并经图像特征编码模型提取对应视频片段的图像特征,对每个视频片段的所述头帧和所述尾帧进行光学字符识别得到第一文本,将所述第一文本拼接对应视频片段经科技视频自动语音识别得到的第二文本,所述第一文本和所述第二文本经预训练的文字特征编码模型提取对应视频片段的视频内容文本特征;构建第一训练样本集,将每个视频片段的所述图像特征、所述视频内容文本特征、所属科技视频的视频描述文本组合为单个样本,并添加所属科技视频的标识信息作为标签;获取所述文字特征编码模型、初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络;所述文字特征编码模型用于提取所述样本中视频描述文本的视频描述文本特征,所述视频描述文本特征经所述初始文本语义映射网络映射至公共语义空间,得到第一语义特征;所述初始模态融合网络将所述图像特征和所述视频内容文本特征融合得到视频融合特征,并通过所述初始视频语义映射网络映射至所述公共语义空间,得到第二语义特征;采用所述第一训练样本集对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行训练,在训练过程中,通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失;使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失,所述语义损失基于分类任务进行约束,所述分类任务是基于所述第一语义特征和所述第二语义特征判断其所属科技视频的标识信息;构建模态判别器,判断每个样本的所述第一语义特征和所述第二语义特征对应的原始数据类别,并构建模态判别损失,所述原始数据类别包括文本类别和视频类别;根据所述模态损失和所述语义损失构建语义映射网络总体损失,基于多任务学习,通过最小化所述语义映射网络总体损失,并在对抗学习中最小化所述模态判别损失,对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行参数更新得到目标文本特征网络、目标语义融合网络和目标视频特征网络;将所述文字特征编码模型连接所述目标文本特征网络构成文本特征提取器,将所述视频预处理模块连接所述目标语义融合网络和所述目标视频特征网络构成视频特征提取器,所述文本特征提取器、所述视频特征提取器联合语义召回模块构成目标视频跨模态搜索模型;其中,通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失,包括:令两个数据语义分布的相似度计算公式为: 其中,la表示第一个数据的语义特征的分布,lb表示第二个数据的语义特征的分布,lai表示第一个数据语义特征分布的第i维,lbi表示第二个数据语义特征分布的第i维,dl表示语义特征的维度数;基于上式计算所述视频描述文本特征和所述视频融合特征的语义分布相似度,计算式为:SimLi,j=simli,lj;其中,li表示所述视频描述文本特征的语义分布和lj表示所述视频融合特征的语义分;记所述第一语义特征为fTti;θT、所述第二语义特征为fVvi;θV;所述第一语义特征和所述第二语义特征的相似度计算式为:SimSi,j=simfTti;θT,fVvi;θV;选用L2范数来衡量两个相似度矩阵的差异,定义模态损失为: 使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失,计算式为: 其中,picti表示第i个样本的第一语义特征的第c维值,picvi表示第i个样本的第二语义特征的第c维值;yic表示第i个样本的标签onehot编码的第c维值。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。