买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多语言的视觉词义消歧方法_华东师范大学_202310187072.0 

申请/专利权人:华东师范大学

申请日:2023-03-02

公开(公告)日:2024-02-27

公开(公告)号:CN117610575A

主分类号:G06F40/30

分类号:G06F40/30;G06F40/58;G06F16/583;G06F18/22;G06N3/0464;G06N3/0455

优先权:

专利状态码:在审-公开

法律状态:2024.02.27#公开

摘要:本发明公开了一种多语言的视觉词义消歧方法,属于计算机视觉和自然语言处理技术的综合领域。本发明要解决的技术问题为通过给定一个词和一些有限的上下文,目标是在一组候选图像中选择与目标词的预期含义相对应的图像。具体采用的技术方案是:通过构建由多语言机器翻译模块、文本编码器模块、图像编码器模块、相似度计算模块、排序模块组成的视觉词义消歧模型。通过对不同语言的上下文翻译,文本编码器和图像编码器对文本和图像进行相应的编码处理,最后计算文本和候选图像余弦相似度,实现对候选图像与目标词的匹配。与现有技术相比,本发明不仅融合了图像和文本的两种模态,而且还可以应用于不同的语言当中。

主权项:1.一种多语言的视觉词义消歧方法,其特征在于,该方法是通过构建由多语言机器翻译模块、文本编码器模块、图像编码器模块、相似度计算模块、排序模块组成的视觉词义消歧模型。首先对不同语言的上下文翻译,其次是文本编码器和图像编码器对翻译后的上下文和图像进行相应的编码处理,最后计算文本和候选图像余弦相似度,实现目标词和候选图像与的匹配。具体如下:S1.多语言机器翻译模块接受给定的不同语言的上下文作为输入,编码器通过将不同语言的句子转化成一个语义表示向量,解码器根据语义表示向量和输入时生成的目标语言单词序列,逐步翻译成对应的目标语言;S2.文本编码器模块通过对S1得到的目标语言,选取合适的Prompt工程并融合到S1多语言机器翻译得到的文本当中作为输入,将输入的文本转换为一个表示文本的序列,最后该序列输入到多个层级的Transformer编码器进行处理,得到一个表示整个文本的固定维度向量表示;S3.图像编码器模块使用引入特征金字塔结构的“VisionTransformer”网络模型,通过不同分辨率和尺度的特征提取器和Transformer编码器结合,实现了对候选图像不同层次、不同尺度的信息建模和学习以获取更全面的多尺度视觉信息;S4.相似度计算模块通过将S2文本编码器的得到的整个文本的固定维度向量表示和S3图像编码器得到的固定维度向量表示进行余弦相似度计算,作为文本和图像的相似度评分标准;S5.排序模块将通过S4得到的余弦相似度进行排序,从候选图像中得到与给定目标词最相似的图像。

全文数据:

权利要求:

百度查询: 华东师范大学 一种多语言的视觉词义消歧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。