买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于双重语义图和模态对齐的视觉语言导航方法_合肥工业大学_202410081705.4 

申请/专利权人:合肥工业大学

申请日:2024-01-19

公开(公告)日:2024-04-16

公开(公告)号:CN117889864A

主分类号:G01C21/20

分类号:G01C21/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明提供一种基于双重语义图和模态对齐的视觉语言导航方法,智能体被初始化在一个随机的可导航点,根据当前可导航点的视觉环境信息提取当前可导航点的视觉特征以及对应的文本语义特征,然后使用这两种模态的特征分别构建一个拓扑图,同时使用语法解析器提取指令中的关键名词特征,用于对文本特征进行增强的文本指令特征分别与视觉语义拓扑图,文本语义拓扑图以及当前可导航点的视觉特征进行跨模态的注意力融合,从而做出正确的导航决策。本发明在文本指令特征和视觉特征的基础上,通过构建视觉拓扑图和文本语义拓扑图,增强了每个可导航点的关键信息表示,减小了文本指令和视觉环境之间的语义差距,提高了视觉语言导航的准确性和效率。

主权项:1.一种基于双重语义图和模态对齐的视觉语言导航方法,其特征在于,具体包括以下步骤:S1、对智能体进行导航初始化,并根据智能体的位置坐标获取包括36个视角的全景视觉图像以及基于自然语言描述的指令;S2、基于指令进行指令特征和指令关键名词特征提取,对指令特征和指令关键名词特征分别编码后进行注意力融合,生成特征增强后的文本指令特征;S3、对全景视觉图像进行视觉特征提取;S4、通过跨模态注意力机制对文本指令特征和当前可导航点的视觉特征进行模态对齐,获取跨模态融合特征,智能体通过动作决策模块在当前可导航点做出局部导航决策;S5、基于当前和历史访问过的可导航点的视觉特征构建全局视觉语义拓扑图并保存,通过跨模态注意力机制对文本指令特征和全局视觉语义拓扑图进行模态对齐,获取跨模态融合特征,智能体通过动作决策模块做出基于视觉特征的全局导航决策;S6、基于当前可导航点的视觉特征获取相应的文本语义特征,构建全局文本语义拓扑图并保存,通过跨模态注意力机制对文本指令特征和全局文本语义拓扑图进行模态对齐,获取跨模态融合特征,智能体通过动作决策模块做出基于文本语义的全局导航决策;S7、对智能体做出的局部导航决策、基于视觉特征和文本语义的全局导航决策进行动态融合,智能体获得前进方向或停止动作;S8、保存访问过的可导航点的视觉环境信息,更新全景视觉图像,重复步骤S4至S8,直到智能体到达目的地,停止前进,完成导航。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于双重语义图和模态对齐的视觉语言导航方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。