申请/专利权人:杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司
申请日:2023-12-28
公开(公告)日:2024-04-09
公开(公告)号:CN117475459B
主分类号:G06V30/413
分类号:G06V30/413;G06V30/414;G06V30/26
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2024.02.20#实质审查的生效;2024.01.30#公开
摘要:本申请提供了一种表格信息处理方法、装置、电子设备及存储介质,其中,该方法包括:对待处理图片进行检测,得到待处理图片的表格区域以及表格区域的第一表格线集合,对表格区域进行文本检测,得到表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与第一表格线集合生成表格区域的第二表格线集合,根据第一表格线集合以及第二表格线集合中各表格线的置信度,对第一表格线集合和第二表格线集合进行剔除处理,得到表格区域的目标表格线集合,基于目标表格线集合以及表格区域内的多个文本重建得到目标表格。可以得到更加准确的表格线描述,并提高表格还原的准确性。
主权项:1.一种表格信息处理方法,其特征在于,包括:对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合;对所述表格区域进行文本检测,得到所述表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合,所述第二表格线集合包括:对文本检测框进行聚类处理得到的聚类后表格线;根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合;基于所述目标表格线集合以及所述表格区域内的多个文本重建得到目标表格;所述根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合,包括:将所述第一表格线集合和所述第二表格线集合组合为中间表格线集合,并基于预设的语义分割网络确定所述中间表格线集合中各表格线的第一置信度;根据所述表格区域中各文本检测框的位置信息以及所述中间表格线集合中各表格线的位置信息,确定所述中间表格线集合中各表格线的第二置信度;根据所述中间表格线集合中各表格线的第一置信度和各表格线的第二置信度,确定所述中间表格线集合中各表格线的置信度;根据所述中间表格线集合中各表格线的置信度对所述中间表格线集合中的表格线进行剔除处理,得到所述目标表格线集合;所述根据所述表格区域中各文本检测框的位置信息以及所述中间表格线集合中各表格线的位置信息,确定所述中间表格线集合中各表格线的第二置信度,包括:根据中间表格线的位置信息以及各所述文本检测框的位置信息,确定与所述中间表格线重合的目标文本检测框,所述中间表格线为所述中间表格线集合中的任一表格线;根据所述中间表格线与所述目标文本检测框的重合比例,确定所述中间表格线的第二置信度。
全文数据:
权利要求:
百度查询: 杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司 表格信息处理方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。