【发明授权】一种多语言多模态多分支文档视觉信息抽取方法_华南理工大学_202410033225.0

导航：龙图腾网> 最新专利技术> 一种多语言多模态多分支文档视觉信息抽取方法_华南理工大学_202410033225.0

申请/专利权人：华南理工大学

申请日：2024-01-10

公开（公告）日：2024-04-09

公开（公告）号：CN117542063B

主分类号：G06V30/19

分类号：G06V30/19;G06N3/045;G06N3/048;G06N3/08;G06V10/82

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2024.03.01#实质审查的生效;2024.02.09#公开

摘要：本发明公开了一种多语言多模态多分支文档视觉信息抽取方法，本发明属于模式识别与人工智能领域，包括：获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；对所述文本检测识别结果进行排序，得到已排序检测识别结果；对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练；基于预训练好的多模态特征，分别进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能，显著超越同类具有竞争力的其他现有方法。

主权项：1.一种多语言多模态多分支文档视觉信息抽取方法，其特征在于，包括：获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；对所述文本检测识别结果进行排序，得到已排序检测识别结果；对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征；将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练，得到预训练好的多模态特征；分别对预训练好的多模态特征进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取；分别对预训练好的多模态特征进行实体类别预测、实体链接预测的过程包括：实体分类与实体链接模块包括：线性层和双线性映射层；基于所述线性层对预训练好的多模态特征进行实体类别预测，公式为：其中，⊕是指特征拼接操作，是指线性层，为输出的实体类别预测分数；基于所述双线性映射层和所述线性层对预训练好的多模态特征进行实体链接预测，公式为：其中，⊕是指特征拼接操作，是第p个多模态特征，是第q个多模态特征，是指线性层,是指双线性映射层，为输出的实体链接预测分数。

全文数据：

权利要求：

百度查询：华南理工大学一种多语言多模态多分支文档视觉信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

下一篇：一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

相关技术

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种园林绿化便携铲_马丽丽_202322375183.2

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

龙图腾网&IPTOP

【发明授权】一种多语言多模态多分支文档视觉信息抽取方法_华南理工大学_202410033225.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务