买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】自然场景下的图像文字识别方法、系统与计算机存储介质_南京先维信息技术有限公司_202311741577.3 

申请/专利权人:南京先维信息技术有限公司

申请日:2023-12-15

公开(公告)日:2024-03-29

公开(公告)号:CN117789216A

主分类号:G06V30/148

分类号:G06V30/148;G06T7/11;G06T3/60;G06T3/4007;G06N3/0464;G06N3/045;G06N3/0895;G06V10/82;G06N3/0442

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.03.29#公开

摘要:本发明提供一种自然场景下的图像文字识别方法、系统与计算机存储介质,该图像文字识别方法包括:接收输入的原始图像;使用文本检测模型识别输出文字区域及文字方向信息;非极大值抑制处理,筛选出得分超过预设值的文字区域,获取图像区域并裁剪图像;将裁剪图像旋转至水平;对旋转后的裁剪图像进行插值缩放和填充处理;将裁剪图像输入基于RCNN与Transformer的文字内容识别模型,输出识别结果;最后基于识别结果,获取到不同标签位置最大得分,通过搜索解码的方式,求取对应的文字并输出。通过本发明可实现文字区域、文字方向以及文字内容融合识别,可提高文字识别的鲁棒性,提高识别生僻字和旋转角度较大的文字的准确性和精度。

主权项:1.一种自然场景下的图像文字识别方法,其特征在于,包括以下步骤:步骤S101、接收输入的原始图像;步骤S102、使用基于连接预选框网络的文本检测模型识别所述原始图像,获得原始图像中的文字区域以及文字方向信息;步骤S103、对原始图像中的文字区域进行非极大值抑制处理,筛选出得分超过预设值的文字区域,获取其所在位置的图像区域并裁剪出图像;步骤S104、对裁剪出的文字区域的裁剪图像按照文字方向对应进行旋转,获得水平方向的裁剪图像;步骤S105、对旋转后的裁剪图像进行插值缩放和填充处理,使得裁剪图像的特征尺寸保持不变;步骤S106、将裁剪图像输入基于局部卷积神经网络RCNN与自监督转换网络Transformer的文字内容识别模型,输出识别结果;以及步骤S107、基于识别结果,获取到不同标签位置最大得分,通过搜索解码的方式,求取对应的文字并输出。

全文数据:

权利要求:

百度查询: 南京先维信息技术有限公司 自然场景下的图像文字识别方法、系统与计算机存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。