申请/专利权人:平安科技(深圳)有限公司
申请日:2021-06-10
公开(公告)日:2024-03-08
公开(公告)号:CN113378710B
主分类号:G06V30/19
分类号:G06V30/19;G06V30/148;G06V10/82;G06V30/414;G06N3/0464
优先权:
专利状态码:有效-授权
法律状态:2024.03.08#授权;2021.09.28#实质审查的生效;2021.09.10#公开
摘要:本申请涉及一种图像文件的版面分析方法、装置、计算机设备和存储介质。所述方法涉及图像处理,包括:获取待识别的图像文件,对待识别的图像文件进行字符识别,得到对应的字符识别结果。根据字符识别结果,获取待识别的图像文件对应的文本信息和坐标信息,基于文本信息、坐标信息进行字段编码,生成对应的字段输入向量。根据训练好的文本分类模型对字段输入向量进行分类处理,得到与待识别的图像文件对应的版面分析结果。采用本方法结合字符识别结果得到的各字段的坐标信息和文本信息,进行版面分析,无需依赖特定场景,可应用于具有不同数量的字段的图像文件,通用性更高,同时通过综合考虑坐标位置和文本内容,可提升对图像文件的识别准确率。
主权项:1.一种图像文件的版面分析方法,其特征在于,所述方法包括:获取待识别的图像文件;所述待识别的图像文件包括不同类型的增值税发票文件,其中,不同的增值税发票文件对应的字段数量不同,以及各字段在所述增值税发票文件上的位置不同;对所述待识别的图像文件进行字符识别,得到对应的字符识别结果;根据所述字符识别结果,获取所述待识别的图像文件对应的文本信息和坐标信息;获取所述坐标信息对应的字符数据,建立所述文本信息和所述字符数据之间的关联关系,基于预设字符表,以及所述文本信息、字符数据之间的关联关系,将与所述文本信息关联的字符数据转换成对应的数字索引,并根据所述数字索引和所述文本信息,得到各所述字段对应的字段输入向量;其中,所述坐标信息对应字符数据,所述字符数据用于转换成数字索引,所述字段输入向量是根据所述文本信息和所述数字索引进行拼接得到的;获取训练好的文本分类模型对应的字段标签,根据各所述字段标签,对各所述字段输入向量的进行字段分类,确定与所述字段标签匹配的字段,并将与各所述字段标签匹配的字段对应的文本信息,按照与所述字段标签对应的预设输出格式,得到所述待识别的图像文件与对应的版面分析结果;其中,所述训练好的文本分类模型针对不同字段分别设置相应的字段标签,所述字段标签包括与发票类型、发票编号、发票抬头、开票时间、金额明细、税率明细、购买方信息以及销售方信息不同字段对应的字段标签;其中,不同字段标签对应的字段的文本信息不同,对应输出不同的格式版面分析结果。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。