买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种PDF文档录入方法、系统、存储介质及电子设备_星云海数字科技股份有限公司_202410072781.9 

申请/专利权人:星云海数字科技股份有限公司

申请日:2024-01-18

公开(公告)日:2024-04-09

公开(公告)号:CN117593752B

主分类号:G06V30/148

分类号:G06V30/148;G06V30/19;G06N3/0464;G06N3/08;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要:本发明提出了一种PDF文档录入方法、系统、存储介质及电子设备,属于文档识别领域,方法包括:S1、对PDF文档进行文字检测,建立文本图像数据集;S2、将文本图像数据集输入至CRNN模型中进行文字识别;S3、对识别文本集分别进行二值化处理;S4、构建文本类型判别模型,对文本类型判别模型进行训练;S5、获取待录入PDF文档中文本的初始位置信息;S6、确定待识别文本,并进行二值化处理,输入至训练好的文本类型判别模型,确定文本类型;S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息进行文本配对;S8、根据配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。

主权项:1.一种PDF文档录入方法,其特征在于,包括以下步骤:S1、使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;S2、将文本图像数据集输入至CRNN模型中进行文字识别,得到识别文本集;S3、根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;S4、使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;S5、获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像;S6、根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;S8、根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容;所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块,步骤S7具体包括:S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理,得到第一矩阵Mi;S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理,得到第二矩阵Mb;S73、将第一矩阵Mi和第二矩阵Mb输入至注意力模块进行权重计算,得到注意力权重Att;S74、将注意力权重Att和value类型文本的位置信息Mbn输入至相似度计算模块进行余弦相似度计算,得到配对值;S75、将配对值与预设阈值进行比较,若配对值大于预设阈值,则可以将文本类型进行配对,得到文本的配对关系。

全文数据:

权利要求:

百度查询: 星云海数字科技股份有限公司 一种PDF文档录入方法、系统、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。