申请/专利权人:中国电子系统技术有限公司
申请日:2021-06-26
公开(公告)日:2024-03-19
公开(公告)号:CN113269153B
主分类号:G06V30/413
分类号:G06V30/413;G06V30/14;G06V30/148;G06V30/19
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2021.09.03#实质审查的生效;2021.08.17#公开
摘要:本申请公开一种表格识别方法,该方法包括:获取待识别图像;将待识别图像输入已训练的表格检测模型得到待识别图像中表格图像的表格坐标信息;将待识别图像输入已训练的表格线检测模型得到待识别图像中表格图像的表格线位置信息;根据表格坐标信息以及表格线位置信息确定表格图像中各个单元格的位置信息以及文本信息;根据表格图像中各个单元格的位置信息以及文本信息生成表格图像对应的表格信息。这样,本申请可自动从图像中提取表格信息,而不需要人工手动从图像中提取表格,从而避免出现人工提取表格过程中出现由于操作错误所导致的信息提取错误、效率低下、耗时费力的问题,提高了从图像中提取表格信息的效率和精准度,进而提高了用户体验。
主权项:1.一种表格识别方法,其特征在于,所述方法包括:获取待识别图像,其中,所述待识别图像包括表格图像;将所述待识别图像输入已训练的表格检测模型,得到所述待识别图像中表格图像的表格坐标信息;将所述待识别图像输入已训练的表格线检测模型,得到所述待识别图像中表格图像的表格线位置信息;根据所述表格坐标信息以及所述表格线位置信息,确定所述表格图像中各个单元格的位置信息以及文本信息;根据所述表格图像中各个单元格的位置信息以及文本信息,生成所述表格图像对应的表格信息;所述根据所述表格坐标信息以及所述表格线位置信息,确定所述表格图像中各个单元格的位置信息以及文本信息,包括:根据所述表格坐标信息以及所述表格线位置信息,确定所述表格图像中各个单元格的端点坐标信息;根据所述表格图像中各个单元格的端点坐标信息,确定所述表格图像中各个单元格的位置信息以及文本信息;所述根据所述表格坐标信息以及所述表格线位置信息,确定所述表格图像中各个单元格的端点坐标信息,包括:根据所述表格坐标信息,确定所述表格图像;根据所述表格线位置信息,确定所述表格图像中各个表格线的端点坐标信息以及表格线类型;其中,所述表格线类型包括横线和竖线;根据所述表格图像中各个表格线的端点坐标信息以及表格线类型,确定所述表格图像的交点集;其中,所述表格图像的交点集包括所述表格图像中各个横线表格线与各个竖线表格线的所有交点的坐标信息;根据所述表格图像的交点集,确定所述表格图像中各个单元格的端点坐标信息;所述根据所述表格线位置信息,确定所述表格图像中各个表格线的端点坐标信息以及表格线类型,包括:针对所述表格图像中每一个表格线,根据该表格线上的各个像素点的八连通区域,确定该表格线对应的最小外接矩形;根据该表格线对应的最小外接矩形的长、宽确定该表格线的表格线类型;根据该表格线的表格线类型,确定该表格线的端点坐标信息;交点的坐标信息包括横坐标和纵坐标;所述根据所述表格图像的交点集,确定所述表格图像中各个单元格的端点坐标信息,包括:针对所述所述表格图像的交点集中每一交点,将所述交点作为目标交点,若所述交点集中存在所述目标交点对应的第一交点、第二交点和第三交点,则将所述目标交点以及所述交点对应的第一交点、第二交点和第三交点,确定所述表格图像中一个单元格的端点坐标信息;其中,所述第一交点为与所述目标交点在同一横线表格线上、与所述目标交点相邻以及横坐标与所述目标交点的横坐标相同的交点;所述第二交点为与所述目标交点在同一竖线表格线上、与所述目标交点相邻以及纵坐标与所述目标交点的纵坐标相同的交点;所述第三交点为与所述第一交点在同一竖线表格线上、与所述第一交点相邻、纵坐标与所述第一交点的纵坐标相同且与所述第二交点在同一横线表格线上、与所述第二交点相邻、横坐标与所述第二交点的横坐标相同的交点。
全文数据:
权利要求:
百度查询: 中国电子系统技术有限公司 一种表格识别方法以及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。