武汉理工大学三亚科教创新园陈亚雄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉理工大学三亚科教创新园申请的专利一种基于跨模态交互的海洋船舶图文定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119360001B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411895993.3,技术领域涉及:G06V10/25;该发明授权一种基于跨模态交互的海洋船舶图文定位方法是由陈亚雄;李子婵;龚腾飞;孙钦婷;熊盛武设计研发完成,并于2024-12-23向国家知识产权局提交的专利申请。
本一种基于跨模态交互的海洋船舶图文定位方法在说明书摘要公布了:本发明属于智慧海洋和计算机视觉技术领域,公开一种基于跨模态交互的海洋船舶图文定位方法,包括:构建数据集;构建编码‑解码结构模型;提取视觉特征和语言特征,生成视觉特征和语言特征;融合上述特征生成坐标先验和对齐特征,用增强对象查询,并与多模态视觉特征和语言特征交互;计算损失函数值,训练多轮得最终模型。本发明将单模态特征与其他模态特征关联,提高模型对视觉和语言特征的语义理解;利用坐标先验增强对象查询,引入判别融合模块加强多模态特征的语义一致性,最终有效提高船舶图文定位任务的效率和准确率。
本发明授权一种基于跨模态交互的海洋船舶图文定位方法在权利要求书中公布了:1.一种基于跨模态交互的海洋船舶图文定位方法,其特征在于,包括: 步骤S1,收集海洋船舶图像和文本数据,构建海洋船舶图文定位数据集; 步骤S2,构建基于跨模态交互的海洋船舶图文定位模型,模型结构包括两个部分:视觉-语言编码模块和视觉-语言解码模块; 其中,1)所述视觉-语言编码模块包括频谱文本参与式交互模块和全局视觉参与式交互模块,具体步骤如下: 步骤S21,提取图像的原始视觉特征和文本的原始语言特征; 步骤S22,所述频谱文本参与式交互模块将原始视觉特征和原始语言特征作为输入生成文本参与的视觉特征; 步骤S23,所述全局视觉参与式交互模块将生成文本参与的视觉特征和原始语言特征作为输入生成视觉参与的语言特征; 具体步骤如下: 使用多头跨模态注意力机制捕获文本条件下的图像上下文,然后,使用另一个多头跨模态注意力机制将图像上下文和语言特征融合,得到视觉参与的语言特征; 计算公式如下: ; ; 其中,表示降维后的原始语言特征,表示降维后的文本参与的视觉特征,表示多头跨模态注意力机制,输入参数、和分别表示查询、键和值; 2)所述视觉-语言解码模块包括坐标先验模块和判别融合模块,具体步骤如下: 步骤S24,所述坐标先验模块将所述原始语言特征作为输入生成坐标先验; 步骤S25,所述判别融合模块将生成文本参与的视觉特征、视觉参与的语言特征和原始语言特征为输入生成对齐特征; 步骤S26,在解码器的第t层中,使用坐标先验增强对象查询,是第t层对象查询,得到查询,将查询与提取的多模态视觉特征和语言特征进行交互; 步骤S3,将数据集中的训练集输入模型,计算总的损失函数值,进行反向传播,通过优化器和相应参数对连接权重进行优化,训练多轮后得到最终的图文定位模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉理工大学三亚科教创新园,其通讯地址为:572025 海南省三亚市崖州区崖州湾科技城用友产业园9号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。