首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】目标检测模型的训练方法、目标检测方法及电子设备_中国科学技术大学_202410059185.7 

申请/专利权人:中国科学技术大学

申请日:2024-01-16

公开(公告)日:2024-05-17

公开(公告)号:CN117576520B

主分类号:G06V10/774

分类号:G06V10/774;G06V10/80;G06V10/82;G06V10/10;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本发明提供了一种目标检测模型的训练方法、目标检测方法及电子设备。该方法包括:将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量;将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量;对第一模态样本特征向量与第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量;将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量;将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果;利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。

主权项:1.一种目标检测模型的训练方法,其特征在于,所述方法包括:将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,所述第一模态样本包括样本自然语言描述文本,其中,所述第一神经网络为文本编码器;基于具有任务导向的多头注意力机制,将第二模态样本输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,所述第二模态样本包括待搜索区域的第一样本视频图像和与所述待搜索区域的第一样本视频图像对应的样本模板图像,所述样本自然语言描述文本表征所述待搜索区域的第一样本视频图像中包含的待检测的目标样本对象,其中,所述第二神经网络为图像编码器,所述第一神经网络和所述第二神经网络构成浅层编码器,所述浅层编码器用于提取所述第一模态样本和所述第二模态样本的浅层特征,所述浅层特征包括底层语音信息和图像块像素信息;对所述第一模态样本特征向量与所述第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量;基于所述具有任务导向的多头注意力机制,将第三模态样本特征向量输入所述目标检测模型的第三神经网络,得到第四模态样本特征向量,其中,所述第三神经网络为深层编码器;将所述第四模态样本特征向量输入所述目标检测模型的第四神经网络,得到目标样本对象的检测结果,其中,所述第四神经网络为模态自适应目标检测网络;利用所述目标样本对象的检测结果调整所述目标检测模型的模型参数,得到经训练的目标检测模型;其中,所述将第二模态样本输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,包括:对所述待搜索区域的第一样本视频图像进行图像编码,得到第一样本视频图像特征向量;对所述样本模板图像进行图像编码,得到样本模板图像特征向量;对所述第一样本视频图像特征向量和所述样本模板图像特征向量进行第二拼接处理,得到第一中间模态样本特征向量;将所述第一中间模态样本特征向量输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量;其中,所述将所述第一中间模态样本特征向量输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,包括:针对所述第二神经网络的第i层,根据所述第一中间模态样本特征向量,得到与所述第一中间模态样本特征向量对应的第一掩膜矩阵;根据所述第一中间模态样本特征向量,得到与第i-1层对应的第二模态样本特征向量;对所述与第i-1层对应的第二模态样本特征向量进行线性变换处理,得到与第i层对应的第一参数特征向量;根据所述与第i-1层对应的第二模态样本特征向量、所述第一掩膜矩阵、所述第一参数特征向量,确定与第i层对应的第二中间模态样本特征向量;根据所述与第i层对应的第二中间模态样本特征向量,得到与第i层对应的第二模态样本特征向量。

全文数据:

权利要求:

百度查询: 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术