Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 上海优玩网络科技有限公司袁正午获国家专利权

上海优玩网络科技有限公司袁正午获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉上海优玩网络科技有限公司申请的专利一种结合图像描述和文本生成图像的视觉语言导航方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117571014B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311520271.5,技术领域涉及:G01C21/36;该发明授权一种结合图像描述和文本生成图像的视觉语言导航方法是由袁正午;唐培贤;邵文;杨浩;张哲齐设计研发完成,并于2023-11-15向国家知识产权局提交的专利申请。

一种结合图像描述和文本生成图像的视觉语言导航方法在说明书摘要公布了:本发明涉及一种结合图像描述和文本生成图像的视觉语言导航方法,属于视觉语言导航技术领域。该方法为:获取视觉语言导航任务的自然语言目标指令和当前所处位置的视觉图像;通过场景描述模块生成基于当前场景的详尽自然语言描述;通过文本生成图像模型生成与所描述场景有着类似核心物品对象以及核心场景布局的相似场景;将当前场景和对应相似场景通过多层Transformer结构和细尺度跨模态编码器进行编码;将当前场景编码和相似场景编码动态融合生成综合考虑了当前真实场景和对应相似场景的融合动作预测。该方法通过为任务训练提供额外的视觉数据输入,解决了视觉语言导航任务的数据稀缺问题,提高了智能体的任务性能和模型的泛化能力。

本发明授权一种结合图像描述和文本生成图像的视觉语言导航方法在权利要求书中公布了:1.一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:该方法包括以下步骤:S1:获取视觉语言导航任务的自然语言目标指令以及当前场景所处位置的视觉图像;S2:基于S1获得的全景视觉图像,通过场景描述模块生成描述了当前场景所处位置的所属房间类型、核心物品对象、核心物品对象间关系以及核心场景布局的详尽自然语言图像描述;S3:将S2中生成的详尽自然语言图像描述作为文本生成图像模型的输入,最终生成与所描述场景有着类似核心物品对象以及核心场景布局的相似场景;S4:将S1中的视觉图像以及S3中基于当前场景生成的相似场景图像分别通过多层Transformer结构提取视觉特征,同时将S1中的自然语言目标指令通过文本编码器得到目标指令编码,随后结合目标指令编码将提取得到的两种视觉特征通过细尺度跨模态编码器进行编码,最终生成当前场景编码和相似场景编码;S5:将S4中生成的当前场景编码和相似场景编码通过交叉注意力层生成视觉增强场景融合特征,并将其注入到线性前馈网络,再通过Softmax激活函数基于当前所有可航点生成对下一步执行动作的视觉增强动作预测,将视觉增强动作预测和基准专家动作进行交叉熵运算,生成增强动作损失,即通过监督视觉增强动作预测来指导视觉增强场景融合特征的学习,通过公式描述为: 其中,t表示当前时间步骤,表示视觉增强场景融合特征,Cross–Attn表示交叉注意力层,表示当前场景编码,表示相似场景编码,表示视觉增强动作预测,FFN表示线性前馈网络,表示增强动作预测损失,CrossEntropy表示交叉熵损失函数,表示基准专家动作;S6:更进一步地,在每一时间步骤,通过线性前馈网络和Sigmoid激活函数聚合S4中生成的当前场景编码与S5中生成的视觉增强场景融合特征,为动态融合S5中的视觉增强动作预测和基于当前场景所作出的动作预测生成动态融合权重: 其中,σt表示可学习的动态融合权重,基于此,最终的导航决策表示为: 其中,表示综合考虑了当前真实场景和对应相似场景的融合动作预测,最后将融合动作预测与基准专家动作进行交叉熵计算: 其中,表示融合动作预测损失,通过监督融合动作预测来指导整个决策过程的学习。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海优玩网络科技有限公司,其通讯地址为:201800 上海市嘉定区真南路4268号2幢JT12838室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。