【发明授权】一种视频跨模态搜索模型训练方法、搜索方法及装置_北京邮电大学_202310882289.3

导航：龙图腾网> 最新专利技术> 一种视频跨模态搜索模型训练方法、搜索方法及装置_北京邮电大学_202310882289.3

申请/专利权人：北京邮电大学

申请日：2023-07-18

公开（公告）日：2024-04-26

公开（公告）号：CN116955699B

主分类号：G06F16/735

分类号：G06F16/735;G06N3/044;G06N3/0442;G06N3/08;G06F16/783

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2023.12.26#实质审查的生效;2023.10.27#公开

摘要：本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置，对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间；被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容，提取首尾帧图像内容，分别进行特征提取后执行特征融合，并通过初始视频语义映射网络映射至公共语义空间；在下游构建相似度比对任务、语义分类任务和模态判别任务，对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练，提升文本和视频两种类型数据在公共语义空间内表示的精确度，并关注到模态内和模态间的关联及差异。

主权项：1.一种视频跨模态搜索模型的训练方法，其特征在于，该方法包括以下步骤：获取多个科技视频以及各科技视频对应的多个视频描述文本；对每个科技视频执行科技视频自动语音识别，将单个科技视频按照演讲者的陈述断句分为多个视频片段；获取视频预处理模块，所述视频预处理模块提取每个视频片段的头帧和尾帧，并经图像特征编码模型提取对应视频片段的图像特征，对每个视频片段的所述头帧和所述尾帧进行光学字符识别得到第一文本，将所述第一文本拼接对应视频片段经科技视频自动语音识别得到的第二文本，所述第一文本和所述第二文本经预训练的文字特征编码模型提取对应视频片段的视频内容文本特征；构建第一训练样本集，将每个视频片段的所述图像特征、所述视频内容文本特征、所属科技视频的视频描述文本组合为单个样本，并添加所属科技视频的标识信息作为标签；获取所述文字特征编码模型、初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络；所述文字特征编码模型用于提取所述样本中视频描述文本的视频描述文本特征，所述视频描述文本特征经所述初始文本语义映射网络映射至公共语义空间，得到第一语义特征；所述初始模态融合网络将所述图像特征和所述视频内容文本特征融合得到视频融合特征，并通过所述初始视频语义映射网络映射至所述公共语义空间，得到第二语义特征；采用所述第一训练样本集对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行训练，在训练过程中，通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失；使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失，所述语义损失基于分类任务进行约束，所述分类任务是基于所述第一语义特征和所述第二语义特征判断其所属科技视频的标识信息；构建模态判别器，判断每个样本的所述第一语义特征和所述第二语义特征对应的原始数据类别，并构建模态判别损失，所述原始数据类别包括文本类别和视频类别；根据所述模态损失和所述语义损失构建语义映射网络总体损失，基于多任务学习，通过最小化所述语义映射网络总体损失，并在对抗学习中最小化所述模态判别损失，对所述初始文本语义映射网络、所述初始模态融合网络和所述初始视频语义映射网络进行参数更新得到目标文本特征网络、目标语义融合网络和目标视频特征网络；将所述文字特征编码模型连接所述目标文本特征网络构成文本特征提取器，将所述视频预处理模块连接所述目标语义融合网络和所述目标视频特征网络构成视频特征提取器，所述文本特征提取器、所述视频特征提取器联合语义召回模块构成目标视频跨模态搜索模型；其中，通过计算每个样本对应的所述第一语义特征和所述第二语义特征的相似度构建模态损失，包括：令两个数据语义分布的相似度计算公式为：其中，la表示第一个数据的语义特征的分布，lb表示第二个数据的语义特征的分布，lai表示第一个数据语义特征分布的第i维，lbi表示第二个数据语义特征分布的第i维，dl表示语义特征的维度数；基于上式计算所述视频描述文本特征和所述视频融合特征的语义分布相似度，计算式为：SimLi，j＝simli，lj；其中，li表示所述视频描述文本特征的语义分布和lj表示所述视频融合特征的语义分；记所述第一语义特征为fTti；θT、所述第二语义特征为fVvi；θV；所述第一语义特征和所述第二语义特征的相似度计算式为：SimSi，j＝simfTti；θT，fVvi；θV；选用L2范数来衡量两个相似度矩阵的差异，定义模态损失为：使用交叉损失熵计算每个样本对应的所述第一语义特征和所述第二语义特征的偏差值作为语义损失，计算式为：其中，picti表示第i个样本的第一语义特征的第c维值，picvi表示第i个样本的第二语义特征的第c维值；yic表示第i个样本的标签onehot编码的第c维值。

全文数据：

权利要求：

百度查询：北京邮电大学一种视频跨模态搜索模型训练方法、搜索方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种燃气管道修复装置及方法_广州燃气集团有限公司_202410161508.3

下一篇：锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

相关技术

一种燃气管道修复装置及方法_广州燃气集团有限公司_202410161508.3

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

一种基于多智能体交互的自然语言智能查询方法和装置_浙江大学_202311766938.X

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

一种快速安装的超声波水表及其安装方法_尚宏仪表科技(江苏)有限公司_202311847412.4

一种全自动铜铝焊接装置_怀化亚信科技股份有限公司_202410351666.5

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

一种汽车配件的外圆磨削装置_江苏坦途专用汽车制造有限公司_202410150674.3

一种新型射灯天线_摩比天线技术(深圳)有限公司_202410125372.0

基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

搜索相关技术

整数模糊度搜索空间减小_高通股份有限公司_202280061868.5

一种基于可验证动态对称可搜索加密的敏感医疗文档搜索验证方法_淮阴工学院_202410118650.X

文本搜索提速方法、装置、设备及存储介质_北京中科闻歌科技股份有限公司_202410198070.6

用于书籍搜索的方法、装置、设备和介质_北京字跳网络技术有限公司_202410346393.5

基于图搜索的中医问诊推荐方法及系统_福建中医药大学_202410174284.X

搜索结果展示方法、装置及电子设备_杭州阿里巴巴海外互联网产业有限公司_202410104070.5

工单搜索方法、装置及计算设备_中国移动通信集团安徽有限公司_202010269941.0

一种基于理论知识库的搜索和问答系统_北京大学_202211406508.2

基于麻雀搜索算法优化的大容量高并发系统负载均衡方法_贵州大学_202311846322.3

一种不确定集搜索的波束形成干扰抑制方法及装置_河南省科学院应用物理研究所有限公司_202010568699.7

态相关技术

一种流态控制装置及饮水设备_广东栗子科技有限公司_202322618748.5

基于单线态氧指示剂的二甲基亚砜溶液中的单线态氧量子产率测量方法_哈尔滨工业大学_202410154573.3

一种基于VR仿真单轨吊运行态控制方法及系统_淮北矿业传媒科技有限公司_202311806559.9

一种快速抓取邻站连接态用户进入本站小区的方法_深圳市佳贤通信科技股份有限公司_202210004357.1

一种厚壁半硬态铜盘管精整缠绕设备_常州润来科技有限公司_202410421242.1

流态土沟槽埋管抗浮施工方法_上海隧道工程有限公司_202210096759.9

文件服务系统在用户态传递文件布局的方法、装置及系统_湖南国科亿存信息科技有限公司_202410050788.0

险态工况下多驾驶模式的人体决策行为识别方法和装置_清华大学_202410137457.0

一种捕获或释放单线态氧材料及其制备方法与应用_苏州大学_202310519205.X

基于偏振纠缠GHZ态的二分迭代时钟同步系统和方法_广东尤科泊得科技发展有限公司_201811654915.9

训练相关技术

集测试和主被动训练的平衡训练台_河南省祥和康复产业技术研究院有限责任公司_201910990896.5

划船训练装置_广州源动智慧体育科技有限公司_202322653473.9

甲状腺手术体位训练枕_中国人民解放军联勤保障部队第九〇八医院_202410311253.4

用于视力训练的头戴式显示设备和视力训练方法_杭州灵伴科技有限公司_202410425739.0

多模式下肢多关节康复训练装置及训练方法_陕西省康复医院(陕西省残疾人康复中心)_202410229262.9

一种模拟训练用军事训练激光射击装置_中国人民解放军第六四一一工厂_202322674736.4

一种预训练模型的训练方法及系统_北京华品博睿网络技术有限公司_202410048860.6

神经网络模型的训练方法和训练系统_第四范式(北京)技术有限公司_201910618250.4

一种预训练语言模型的训练方法及装置_鼎富智能科技有限公司_202210287236.2

大语言模型训练及训练数据构建方法、装置、设备、介质_蚂蚁科技集团股份有限公司_202410405159.5

龙图腾网&IPTOP

【发明授权】一种视频跨模态搜索模型训练方法、搜索方法及装置_北京邮电大学_202310882289.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务