【发明授权】一种PDF文档录入方法、系统、存储介质及电子设备_星云海数字科技股份有限公司_202410072781.9

申请/专利权人：星云海数字科技股份有限公司

申请日：2024-01-18

公开（公告）日：2024-04-09

公开（公告）号：CN117593752B

主分类号：G06V30/148

分类号：G06V30/148;G06V30/19;G06N3/0464;G06N3/08;G06F16/35

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要：本发明提出了一种PDF文档录入方法、系统、存储介质及电子设备，属于文档识别领域，方法包括：S1、对PDF文档进行文字检测，建立文本图像数据集；S2、将文本图像数据集输入至CRNN模型中进行文字识别；S3、对识别文本集分别进行二值化处理；S4、构建文本类型判别模型，对文本类型判别模型进行训练；S5、获取待录入PDF文档中文本的初始位置信息；S6、确定待识别文本，并进行二值化处理，输入至训练好的文本类型判别模型，确定文本类型；S7、构建配对模型，将key类型文本的二值图和value类型文本的位置信息进行文本配对；S8、根据配对关系按照json字符串格式进行组装并输出，得到PDF文档录入的内容。

主权项：1.一种PDF文档录入方法，其特征在于，包括以下步骤：S1、使用DBNet算法对PDF文档进行文字检测，确定PDF文档中文本的初始位置信息，根据文本的初始位置信息对文本信息进行图片截取，得到文本图像，建立文本图像数据集；S2、将文本图像数据集输入至CRNN模型中进行文字识别，得到识别文本集；S3、根据初始位置信息对识别文本集分别进行二值化处理，得到文本位置信息的二值图数据集；S4、使用卷积神经网络构建文本类型判别模型，采用文本位置信息的二值图数据集对文本类型判别模型进行训练，得到训练好的文本类型判别模型；S5、获取待录入PDF文档中文本的初始位置信息，根据文本的初始位置信息进行图片截取得到待识别文本图像；S6、根据待识别文本图像确定待识别文本，并对待识别文本进行二值化处理得到待识别文本位置信息的二值图，将待识别文本位置信息的二值图输入至训练好的文本类型判别模型，确定文本类型；其中文本类型包括key类型文本和value类型文本；S7、构建配对模型，将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对，得到文本的配对关系；S8、根据文本的配对关系按照json字符串格式进行组装并输出，得到PDF文档录入的内容；所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块，步骤S7具体包括：S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理，得到第一矩阵Mi；S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理，得到第二矩阵Mb；S73、将第一矩阵Mi和第二矩阵Mb输入至注意力模块进行权重计算，得到注意力权重Att；S74、将注意力权重Att和value类型文本的位置信息Mbn输入至相似度计算模块进行余弦相似度计算，得到配对值；S75、将配对值与预设阈值进行比较，若配对值大于预设阈值，则可以将文本类型进行配对，得到文本的配对关系。

全文数据：

权利要求：

百度查询：星云海数字科技股份有限公司一种PDF文档录入方法、系统、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

下一篇：一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

相关技术

一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

方法相关技术

通信方法及装置_华为技术有限公司_202010617172.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

系统相关技术

显示系统_华为技术有限公司_202110898215.X

破碎系统_内蒙古金辉稀矿有限公司_202322202710.X

空调系统_宁波奥克斯电气股份有限公司_202322434517.9

开采系统_地下萃取技术私人有限公司_201980058102.X

供热系统_瑞纳智能设备股份有限公司_202322452572.0

热泵系统_青岛海尔空调电子有限公司_202211295395.3

EGR系统_赛力斯集团股份有限公司_202211341129.X

液压系统的过滤方法、液压系统及作业机械_三一重机有限公司_202110610891.2

一种电机、驱动系统及制动系统_纬湃汽车电子(芜湖)有限公司_202322209712.1

叉车车载电源系统和叉车充电系统_深圳市雄韬锂电有限公司_201911407557.6

录入相关技术

基于数据转换与一键录入金税三期系统的办税方法及装置_广东金赋科技股份有限公司_202011614836.2

一种建筑造价录入比对装置_尹博文_202322321767.1

用于时间录入、管理和计费的系统和方法_支点全球技术公司_202280056459.6

便捷式区块链货物交接流转用录入系统_叶番姜_202211634485.0

一种便于经济管理信息录入的计算机辅助装置_河北科技师范学院_202210026225.9

一种基于机械齿轮联动电子设备信号录入装置_深圳叩梦科技有限公司_202211230706.8

一种理化表单自动联想录入功能的实现方法及系统_青岛诺亚信息技术有限公司_202410294760.1

工程数据高效录入方法、装置、设备及存储介质_中国建筑工程(香港)有限公司_202311839829.6

数据录入方法、装置、电子设备及计算机可读存储介质_珠海金智维信息科技有限公司_202311835268.2

一种会计专业用票据数据扫描录入装置_洛阳师范学院_202110427761.5

龙图腾网&IPTOP

【发明授权】一种PDF文档录入方法、系统、存储介质及电子设备_星云海数字科技股份有限公司_202410072781.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务