买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种通过预训练弥合模态差异的端到端图片翻译方法_天津大学_202310782138.0 

申请/专利权人:天津大学

申请日:2023-06-29

公开(公告)日:2023-10-20

公开(公告)号:CN116911322A

主分类号:G06F40/58

分类号:G06F40/58;G06N3/0455;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.11.07#实质审查的生效;2023.10.20#公开

摘要:本发明的目的是提供一种通过预训练弥合模态差异的端到端图片翻译方法,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;所述文本翻译预训练,使用大规模双语数据训练一个基于Transformer结构的编码器‑解码器翻译模型;所述图片翻译预训练,图片翻译模型使用中编码器‑解码器翻译模型作为初始化,然后为模型配置一个视觉编码器;共享编码器能够同时接受视觉序列信息与文本序列信息,需要在共享编码器中促进相同语义的图片和文字的表示进行对齐。本发明大大提高了端到端图片翻译模型的性能,达到并超过了级联系统,同时相比传统级联其速度有了显著的提高。

主权项:1.一种通过预训练弥合模态差异的端到端图片翻译方法,其特征在于,所述方法分为两个阶段,第一阶段是文本翻译预训练,第二阶段为图片翻译预训练;所述文本翻译预训练,使用大规模双语数据训练一个基于Transformer结构的编码器-解码器翻译模型;所述图片翻译预训练,图片翻译模型使用中编码器-解码器翻译模型作为初始化,然后为模型配置一个视觉编码器,视觉编码器由CRNN结构构成,能够有效提取图片中的序列信息,并形成序列向量输入共享编码器中;共享编码器能够同时接受视觉序列信息与文本序列信息,需要在共享编码器中促进相同语义的图片和文字的表示进行对齐;在图片翻译预训练的过程中引入图片翻译训练和文本翻译训练,在统一的共享编码器的作用下,两种模态在训练过程中由于参数共享,会逐渐产生统一的跨模态表示,同时图片翻译能够继续吸收文本翻译的翻译知识。

全文数据:

权利要求:

百度查询: 天津大学 一种通过预训练弥合模态差异的端到端图片翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。