买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于细粒度噪声感知的鲁棒图像字幕生成方法_南京理工大学_202311735673.7 

申请/专利权人:南京理工大学

申请日:2023-12-15

公开(公告)日:2024-04-30

公开(公告)号:CN117953336A

主分类号:G06V10/80

分类号:G06V10/80;H04N21/488;G06V10/82;G06T11/60;G06N3/045;G06N3/084;G06N3/09;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:本发明公开了一种基于细粒度噪声感知的鲁棒图像字幕生成方法,包括:收集多模态图文对训练数据;提取图像的网格特征与全局特征并处理得到细化网格特征与细化全局特征,提取文本特征;预融合图像细化全局特征与文本特征,建模图像细化网格特征与所述图文预融合特征的相关性;对所述交互结果进行转换处理获得一阶词预测;用一阶词预测向量代替相应的标签词向量作为输入,获取二阶词预测,量化二阶词预测与词标签的累计误差;依据量化结果加权融合词标签与模型预测构造伪标签,重新进行跨模态交互,输出图像字幕。本发明提供了细粒度的数据弱相关噪声的识别方式,并在模型拟合过程中渐进地修正,有效提升数据弱关联噪声场景下图像字幕模型的性能。

主权项:1.一种基于细粒度噪声感知的鲁棒图像字幕生成方法,其特征在于,包括如下步骤:步骤1,收集多模态图文对训练数据;步骤2,提取图像的网格特征与全局特征并处理得到细化网格特征与细化全局特征,提取文本特征;步骤3,预融合图像细化全局特征与文本特征,建模图像细化网格特征与所述图文预融合特征的相关性,实现跨模态交互;步骤4,对所述交互结果进行转换处理获得一阶词预测,量化预测确定性;步骤5,用一阶词预测向量代替相应的标签词向量作为输入,获取二阶词预测,量化二阶词预测与词标签的累计误差;步骤6,依据所述量化结果加权融合词标签与模型预测构造伪标签,重新进行跨模态交互,输出图像字幕。

全文数据:

权利要求:

百度查询: 南京理工大学 基于细粒度噪声感知的鲁棒图像字幕生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。