申请/专利权人:沈阳哲航信息科技有限公司
申请日:2024-02-20
公开(公告)日:2024-03-22
公开(公告)号:CN117746437A
主分类号:G06V30/148
分类号:G06V30/148;G06V30/414
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.09#实质审查的生效;2024.03.22#公开
摘要:本申请涉及数据处理技术领域,提供了一种文档数据提取系统及其方法,文档数据提取系统包括用于获取待提取的文档图像的图像获取单元、用于得到文档图像中文档单元格的角点坐标的腐蚀膨胀单元、用于确定文档图像对应的文档数据的文档数据提取单元和数据管理中台;数据管理中台分别与图像获取单元、文本检测单元、腐蚀膨胀单元和文档数据提取单元连接,对所有单元进行控制管理。本申请实施例克服了传统方案中文档数据提取方法兼容性差,无法适应于形式多变的文档,提取效果不佳的缺陷,实现了各种类型的文档数据提取,提升了提取准确性和提取效率,并且易于实现和部署、具备极强的实用性和较好的兼容性。
主权项:1.一种文档数据提取系统,其特征在于,所述文档数据提取系统包括图像获取单元、文本检测单元、腐蚀膨胀单元、文档数据提取单元和数据管理中台;所述数据管理中台分别与所述图像获取单元、所述文本检测单元、所述腐蚀膨胀单元和所述文档数据提取单元连接,对所有单元进行控制管理;所述图像获取单元用于:获取待提取的文档图像;所述文本检测单元用于:对所述文档图像进行文本检测,得到所述文档图像中的文本区域,以及各文本区域的角点坐标;腐蚀膨胀单元,用于基于所述各文本区域的角点坐标,生成所述文档图像的掩码图,并对所述掩码图进行腐蚀膨胀,得到所述文档图像中文档单元格的角点坐标;文档数据提取单元用于:基于所述各文本区域的角点坐标、各文档单元格的角点坐标,以及所述各文本区域的文本内容,确定所述文档图像对应的文档数据。
全文数据:
权利要求:
百度查询: 沈阳哲航信息科技有限公司 文档数据提取系统及其方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。