【发明公布】一种基于双重语义图和模态对齐的视觉语言导航方法_合肥工业大学_202410081705.4

导航：龙图腾网> 最新专利技术> 一种基于双重语义图和模态对齐的视觉语言导航方法_合肥工业大学_202410081705.4

申请/专利权人：合肥工业大学

申请日：2024-01-19

公开（公告）日：2024-04-16

公开（公告）号：CN117889864A

主分类号：G01C21/20

分类号：G01C21/20

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明提供一种基于双重语义图和模态对齐的视觉语言导航方法，智能体被初始化在一个随机的可导航点，根据当前可导航点的视觉环境信息提取当前可导航点的视觉特征以及对应的文本语义特征，然后使用这两种模态的特征分别构建一个拓扑图，同时使用语法解析器提取指令中的关键名词特征，用于对文本特征进行增强的文本指令特征分别与视觉语义拓扑图，文本语义拓扑图以及当前可导航点的视觉特征进行跨模态的注意力融合，从而做出正确的导航决策。本发明在文本指令特征和视觉特征的基础上，通过构建视觉拓扑图和文本语义拓扑图，增强了每个可导航点的关键信息表示，减小了文本指令和视觉环境之间的语义差距，提高了视觉语言导航的准确性和效率。

主权项：1.一种基于双重语义图和模态对齐的视觉语言导航方法，其特征在于，具体包括以下步骤：S1、对智能体进行导航初始化，并根据智能体的位置坐标获取包括36个视角的全景视觉图像以及基于自然语言描述的指令；S2、基于指令进行指令特征和指令关键名词特征提取，对指令特征和指令关键名词特征分别编码后进行注意力融合，生成特征增强后的文本指令特征；S3、对全景视觉图像进行视觉特征提取；S4、通过跨模态注意力机制对文本指令特征和当前可导航点的视觉特征进行模态对齐，获取跨模态融合特征，智能体通过动作决策模块在当前可导航点做出局部导航决策；S5、基于当前和历史访问过的可导航点的视觉特征构建全局视觉语义拓扑图并保存，通过跨模态注意力机制对文本指令特征和全局视觉语义拓扑图进行模态对齐，获取跨模态融合特征，智能体通过动作决策模块做出基于视觉特征的全局导航决策；S6、基于当前可导航点的视觉特征获取相应的文本语义特征，构建全局文本语义拓扑图并保存，通过跨模态注意力机制对文本指令特征和全局文本语义拓扑图进行模态对齐，获取跨模态融合特征，智能体通过动作决策模块做出基于文本语义的全局导航决策；S7、对智能体做出的局部导航决策、基于视觉特征和文本语义的全局导航决策进行动态融合，智能体获得前进方向或停止动作；S8、保存访问过的可导航点的视觉环境信息，更新全景视觉图像，重复步骤S4至S8，直到智能体到达目的地，停止前进，完成导航。

全文数据：

权利要求：

百度查询：合肥工业大学一种基于双重语义图和模态对齐的视觉语言导航方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

下一篇：一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

相关技术

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种机柜_珠海冠宇动力电源有限公司_202322495779.6

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

龙图腾网&IPTOP

【发明公布】一种基于双重语义图和模态对齐的视觉语言导航方法_合肥工业大学_202410081705.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务