买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种PDF文件信息抽取方法、装置以及计算机设备_湖南四方天箭信息科技有限公司_202110749413.X 

申请/专利权人:湖南四方天箭信息科技有限公司

申请日:2021-07-01

公开(公告)日:2024-04-09

公开(公告)号:CN113343658B

主分类号:G06F40/18

分类号:G06F40/18;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.09.21#实质审查的生效;2021.09.03#公开

摘要:本发明公开一种PDF文件信息抽取方法、装置以及计算机设备,该方法包括:获取待抽取PDF文件,提取待抽取PDF文件中的字符和线条;根据提取的各线条的坐标位置以及各线条之间的位置关系,抽取待抽取PDF文件中的最简表格,最简表格为所有线条均为两两相连的最外围表格;根据最简表格的表格线条确定最简表格的单元格,递归循环抽取各单元格内部嵌套的最简表格;根据各最简表格的表格线条的坐标位置以及提取的各字符的坐标位置,从字符中抽取得到各最简表格的表格字符。本发明具有实现方法简单、抽取效率高、速度快且能够保留复杂表格内部逻辑关系等的优点。

主权项:1.一种PDF文件信息抽取方法,其特征在于,包括:获取待抽取PDF文件,提取所述待抽取PDF文件中的字符和线条;根据提取的各所述线条的坐标位置以及各所述线条之间的位置关系,抽取所述待抽取PDF文件中的最简表格,所述最简表格为所有线条均为两两相连的最外围表格;根据所述最简表格的表格线条确定所述最简表格的单元格,递归循环抽取各所述单元格内部嵌套的最简表格;根据各所述最简表格的表格线条的坐标位置以及提取的各所述字符的坐标位置,从所述字符中抽取得到各所述最简表格的表格字符;根据所述最简表格的表格线条确定所述最简表格的单元格,递归循环抽取各所述单元格内部嵌套的最简表格,包括:根据所述最简表格的位置坐标,确定出所述最简表格的附属线条,所述附属线条为长度范围在所述最简表格内部的线条;遍历所述最简表格中的各单元格,根据各所述单元格与所述附属线条之间的坐标位置关系,查找出内部有所述附属线条的所有目的单元格;对每个目的单元格执行以下步骤:对当前目的单元格执行一次最简表格的抽取,以抽取出所述目的单元格内部嵌套的一个最简表格,对当前抽取出的最简表格,返回所述遍历所述最简表格中各单元格的步骤以执行最简表格的递归循环抽取,直至所有的所述最简表格中均不存在内部有附属线条的目的单元格。

全文数据:

权利要求:

百度查询: 湖南四方天箭信息科技有限公司 一种PDF文件信息抽取方法、装置以及计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。