首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种任意形状的自然场景文本识别方法_佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司_202011046937.4 

申请/专利权人:佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司

申请日:2020-09-29

公开(公告)日:2024-05-17

公开(公告)号:CN112183545B

主分类号:G06V20/62

分类号:G06V20/62;G06V10/82;G06N3/0455;G06N3/0464;G06N3/08;G06V10/764;G06V10/766;G06V10/80;G06V10/26

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2021.01.22#实质审查的生效;2021.01.05#公开

摘要:本发明提供了一种任意形状的自然场景文本识别方法,包括如下步骤:S1、自然场景文本图像采集,制作训练数据集和测试数据集;S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果,在文本识别中结合了空间注意力机制,为文本识别提高空间位置信息,提高了注意力机制模块对位置信息的敏感度,对文本的外观具有较强的鲁棒性,能够实现任意形状的文本识别。该方法在解决极端纵横比或不规则形状的文本实例检测与识别问题上取得很好效果,而且其识别精度不会受附近文本或背景噪声影响。

主权项:1.一种任意形状的自然场景文本识别方法,其特征在于,包括如下步骤:S1、自然场景文本图像采集,制作训练数据集和测试数据集;S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;所述步骤S2中,构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型,具体包括如下步骤:S21、构建分割候选网络,包括一个U-Net结构网络模块、一个特征融合模块和两个分割预测模块;S22、使用MaskedRoI模块,将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到maskedRoI特征,其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射,则maskedRoI特征R计算为R=R0*M,其中:R0为RoI特征,M为二值多边形masking矩阵,*表示逐元素乘法;S23、构建FastRCNN网络分支,包括一个分类任务和一个回归任务,将步骤S22得到的maskedRoI特征输入该网络,对文本区域提供更精确的定位;S24、构建Mask掩膜分支,用来检测和识别任意形状的文本,所述Mask掩膜分支包括文本实例分割任务、字符分割任务;S25、所述文本识别网络模型中采用多任务损失函数:L=Lsp+α1Lrcnn+α2Lmask,其中,Lsp代表分割损失;Lrcnn代表FastRCNN网络分支损失,包括分类损失和回归损失;Lmask代表Mask掩膜分支损失,包括文本实例分割损失、字符分割损失和文本序列识别损失;α1,α2为超参数;S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果。

全文数据:

权利要求:

百度查询: 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司 一种任意形状的自然场景文本识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。