买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于OCR的表格版式恢复方法、装置及存储介质_平安科技(深圳)有限公司_202010076368.1 

申请/专利权人:平安科技(深圳)有限公司

申请日:2020-01-22

公开(公告)日:2024-04-05

公开(公告)号:CN111325110B

主分类号:G06V30/413

分类号:G06V30/413;G06V30/414;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2022.02.01#实质审查的生效;2020.06.23#公开

摘要:本发明涉及图像处理领域,揭露了一种基于OCR的表格版式恢复方法,该方法包括:接收用户发出的携带待恢复表格图片的指令;对待恢复表格图片进行OCR识别并确定行列切割线后,生成目标表格结构;利用OCR识别结果依次填充目标表格结构的单元格,得到第一表格;识别并处理第一表格中的异常单元格生成目标表格,并将所述目标表格发送给所述用户。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可以提高表格版式恢复的准确性。

主权项:1.一种基于OCR的表格版式恢复方法,适用于电子装置,其特征在于,该方法包括:接收步骤:接收用户发出的表格版式恢复指令,所述表格版式恢复指令包括待恢复表格图片及所述待恢复表格图片的图片类型;识别步骤:对所述待恢复表格图片进行第一OCR识别得到第一识别结果,所述第一识别结果包括所述待恢复表格图片的多个文本框及所述多个文本框对应的文本信息;切割步骤:基于所述第一识别结果及预设切割规则确定所述待恢复表格图片的切割线,并基于所述切割线确定目标表格结构;第一恢复步骤:基于预设填充规则将所述多个文本框分别写入所述目标表格结构中的单元格,生成第一表格;第二恢复步骤:基于预设识别规则从所述第一表格中识别异常单元格,截取所述异常单元格对应的异常区域,将所述异常区域发送至预设终端,并接收所述预设终端返回的所述异常区域对应的异常单元格信息,基于所述异常单元格信息更新所述第一表格,得到目标表格;及反馈步骤:将所述目标表格反馈至所述用户;其中,所述基于所述第一识别结果及预设切割规则确定所述待恢复表格图片的切割线,并基于所述切割线确定目标表格结构,包括:基于所述第一识别结果及预设行切割规则对所述待恢复表格图片进行行切割,确定所述待恢复表格图片的行切割线;根据所述图片类型确定所述待恢复表格图片对应的表头信息,基于所述表头信息及预设列切割规则对所述待恢复表格图片进行列切割,确定所述待恢复表格图片的列切割线;及根据所述待恢复表格图片的行切割线及列切割线确定所述目标表格结构;所述基于所述第一识别结果及预设行切割规则对所述待恢复表格图片进行行切割,确定所述待恢复表格图片的行切割线,包括:按照多个预设角度对所述第一识别结果中的所述多个文本框进行旋转,对旋转后的所述多个文本框在y轴上进行投影,确定在y轴上所述多个预设角度对应的多个投影区间及多个重叠投影片段;选择所述多个投影区间中投影区间最小,或者,选择所述多个重叠投影片段中重叠投影片段最多的预设角度作为目标角度,确定所述目标角度对应的重叠投影片段;根据所述目标角度对应的重叠投影片段确定在所述目标角度下所述多个文本框的行切割线;及根据所述目标角度下所述多个文本框的行切割线,确定每一行对应的文本框;所述预设角度的范围设置为-1°~1°,步长为0.1°;当所述待恢复表格图片包括具有相同行列结构的有表头页和无表头页时,所述切割步骤还包括:k1、识别出所述有表头页的列切割线并计算所述有表头页的列切割比例;k2、基于所述预设行切割规则对所述无表头页进行行切割得到所述无表头页的行切割线,根据所述行切割线确定所述无表头页中文本框最多的行;及k3、根据所述有表头页的列切割比例对所述无表头页中文本框最多的行进行列切割线映射,得到所述无表头页的列切割线对所述无表头页的第一切割结果进行列切割,得到所述无表头页的第二切割结果。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 基于OCR的表格版式恢复方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。