买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于多模态的端到端收据信息提取方法、装置及其应用_城云科技(中国)有限公司_202310230688.1 

申请/专利权人:城云科技(中国)有限公司

申请日:2023-03-03

公开(公告)日:2023-06-06

公开(公告)号:CN116229477A

主分类号:G06V30/148

分类号:G06V30/148;G06N3/084;G06N3/0455;G06V10/80

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.06.23#实质审查的生效;2023.06.06#公开

摘要:本申请提出了基于多模态的端到端收据信息提取方法、装置及其应用,包括以下步骤:将二维收据图像连续分割两次分别得到粗粒度矩形区域和细粒度矩形区域,并输入至由内外transformer构成的视觉编码器中;通过该视觉编码器输出粗粒度特征序列和细粒度特征序列;将粗粒度特征序列和细粒度特征序列融合嵌入式输入文本解码器,并将收据的提示文本按照阅读顺序依次嵌入式输入文本解码器;将图像与文本经过基于位置编码的可区分注意力模块交互;通过结合图像和上一步预测的文本上下文来预测下一个单词,训练读取模型;将目标二维收据图像输入至该读取模型,以输出收据的关键信息。本申请具有时间成本低、识别精度高的优点。

主权项:1.基于多模态的端到端收据信息提取方法,其特征在于,包括以下步骤:S00、将二维收据图像连续分割两次分别得到粗粒度矩形区域和细粒度矩形区域,并输入至由内外transformer构成的视觉编码器中;S10、通过该视觉编码器对每个矩形区域进行编码并加入位置编码后,输入至线性转换层中进行特征拉伸扁平化,分别输出粗粒度特征序列和细粒度特征序列;S20、将所述粗粒度特征序列和所述细粒度特征序列融合嵌入式输入文本解码器,并将收据的提示文本按照阅读顺序依次嵌入式输入文本解码器;S30、将图像与文本经过基于位置编码的可区分注意力模块交互,以得到相关联的文本和图像的结果预测token序列;S40、通过结合图像和上一步预测的文本上下文来预测下一个单词,训练读取模型;S50、将目标二维收据图像输入至该读取模型,以输出收据的关键信息。

全文数据:

权利要求:

百度查询: 城云科技(中国)有限公司 基于多模态的端到端收据信息提取方法、装置及其应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。