买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种结构文本化营业执照图片的方法_南京烽火天地通信科技有限公司_202111023703.2 

申请/专利权人:南京烽火天地通信科技有限公司

申请日:2021-09-01

公开(公告)日:2024-03-29

公开(公告)号:CN113869131B

主分类号:G06V30/42

分类号:G06V30/42;G06V30/19;G06V30/414

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2022.01.21#实质审查的生效;2021.12.31#公开

摘要:本发明公开了一种结构文本化营业执照图片的方法,涉及结构文本化图片处理技术领域,使用了四个阶段对营业执照目标进行检测,营业执照文本进行检测,营业执照文字进行识别,文字内容进行结构化输出,该流程有效的规避了目前市场上大部分营业执照ocr识别算法对于复杂背景和一图多证的鲁棒性较差的痛点,同时弥补了主流方案对于输出文本结构化的匮乏,其可实现多场景多营业执照的自动检测以及文本内容结构化的智能提取,助力快速检索和采集入库公司营业执照信息,提升了工作效率。

主权项:1.一种结构文本化营业执照图片的方法,其特征在于:具体包括以下步骤:步骤1,选取N张带有标注的营业执照图片作为训练样本,通过训练得到营业执照检测模型、字段检测模型和字段识别模型;其中,N1000;步骤2,待识别的训练样本通过营业执照检测模型输出营业执照的四点坐标和旋转角度θi,其中,i∈k,k表示此样本中包含的营业执照总数;将每个营业执照分别进行后续操作,其中,四点坐标按照左下角为起点,顺时针方向排序;步骤3,通过步骤2营业执照检测模型输出营业执照的四点坐标将营业执照图像进行裁剪得到四边形矩阵,得到了k个只包含一张营业执照的前景图片;步骤4:将前景图片通过字段检测模型进行检测,若检测成功则得到n个文本四点坐标A,B位置和所述字段类别δ,其中,n代表当前前景图片的文本总数目,A,B=[a1,b1,a2,b2,a3,b3,a4,b4]字段类别δ={C0:F0,...Ci:Fi...,Ct_k:Ft_k},其中,t_k为阈值top_k,表示取最近的前top_k个文本类别Ci,Fi代表网络输出的分数,文本四边形坐标通过步骤3中相同的透射变换操作,将前景图片裁剪成n个文本矩形图片,其中,每个文本矩形图片Mi与字段类别δi一一对应;步骤5,将步骤4获取的文本矩形图片通过OCR文本框识别模型,得到n个文本字段字符串;步骤6,结合文本字段内容Si和字段类别δi,联合判别得到最终类别Class,具体联合判别方式如下:对于每个字段类别δi,若Fi0.9,则表示该输出类别置信度足够高,则Class=Ci;反之,则计算文本字段内容Si到top_k个文本类别{F0,...Fi...,Ft_k}的边界距离{D0,...Di...,Dt_k}=D,取出边界距离最小值位置arg_minD=Dm,通过该位置得到文本类别则步骤7,将包含营业执照的图片样本转化为结构化字符串输出。

全文数据:

权利要求:

百度查询: 南京烽火天地通信科技有限公司 一种结构文本化营业执照图片的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。