买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本表格提取方法、系统、计算机设备及存储介质_万兴科技集团股份有限公司_202011547839.9 

申请/专利权人:万兴科技集团股份有限公司

申请日:2020-12-24

公开(公告)日:2024-04-16

公开(公告)号:CN112651331B

主分类号:G06V30/416

分类号:G06V30/416;G06F40/177

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.04.30#实质审查的生效;2021.04.13#公开

摘要:本发明实施例公开了文本表格提取方法、系统、计算机设备及存储介质,方法包括:获取文本页面中的表格结构,并确定所述表格结构中的单元格;获取所述单元格中包含有文本数据的内容块对象,并对所述内容块对象进行划分,获得行对象列表;对所述行对象列表中的行对象进行Y轴排序,并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并,并将合并后的行对象保存至所述行对象列表内;关联所述内容块对象与合并后的行对象,并获取所述单元格中文本数据并进行提取。本发明实施例通过将表格结构中的内容块对象与行对象进行关联,使每一个单元格与文本数据一一对应,更加精确的获取了表格结构,提高了转换精度。

主权项:1.一种文本表格提取方法,其特征在于,包括:获取文本页面中的表格结构,并确定所述表格结构中的单元格;所述获取文本页面中的表格结构,并确定所述表格结构中的单元格,包括:基于文本行及路径的无边框表格识别算法获取文本页面中的表格结构,并对所述表格结构进行调整优化,并将优化后的表格结构导入表格模板文件中;其中,对表格结构的调整优化策略是调整表格坐标、插入或删除表格线、修改合并或拆分单元格;所述表格模板文件可以从外部存储设备获取表格坐标位置和单元格的矩形结构信息,并进行记录得到;遍历所述文本页面,对遍历后的文本页面进行切分并确定所述表格结构中的单元格及所述单元格中的文本数据;获取所述单元格中包含有文本数据的内容块对象,并对所述内容块对象进行划分,获得行对象列表;所述获取所述单元格中包含有文本数据的内容块对象,并对所述内容块对象进行划分,获得行对象列表,包括:获取所述文本页面中包含于所述单元格或与所述单元格重叠面积大于预设阈值的文本对象,将所有的文本对象保存至文本对象列表内,并对所述文本对象列表进行排版,得到对应的内容块对象;其中,所述预设阈值为50%;对所述单元格进行拆分再组合成字符对象,并依据所述字符对象对所述内容块对象按行划分,获得行对象列表;对所述行对象列表中的行对象进行Y轴排序,并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并,并将合并后的行对象保存至所述行对象列表内;关联所述内容块对象与合并后的行对象,并获取所述单元格中文本数据并进行提取;所述关联所述内容块对象与合并后的行对象之后,包括:判断所述表格结构是否修改;若所述表格结构已修改,则重新获取新的表格结构的内容块对象,以及对应的行对象列表,再进行关联。

全文数据:

权利要求:

百度查询: 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。