申请/专利权人:中国科学院信息工程研究所
申请日:2023-11-23
公开(公告)日:2024-03-26
公开(公告)号:CN117765520A
主分类号:G06V20/62
分类号:G06V20/62;G06V20/70;G06V10/82;G06V10/764;G06V10/766;G06V10/74;G06N3/0464;G06N3/044;G06N3/0442;G06N3/0499;G06N3/0895
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.12#实质审查的生效;2024.03.26#公开
摘要:本发明公开一种高效准确的歧义场景文字检测方法及系统,属于图像文字识别领域,使用基于MaskR‑CNN结构的文本检测分支检测场景图像中的文本,生成文本候选框;使用歧义感知模块检测场景图像的文本块,将文本块与文本候选框进行匹配及关联,分析文本块中所有文本候选框之间的连接情况,找出有歧义的文本块;构建由图像编码器、文本编码器和跨模态编码器组成的语义感知模块,通过对比学习、匹配预测和掩码预测来训练该语义感知模块;使用训练好的语义感知模块对有歧义的文本块进行场景文字检测。本发明能够高效准确地检测歧义文字,并提高识别的准确率。
主权项:1.一种高效准确的歧义场景文字检测方法,其特征在于,包括以下步骤:使用基于MaskR-CNN结构的文本检测分支检测场景图像中的文本,生成文本候选框;使用歧义感知模块检测场景图像的文本块,将文本块与文本候选框进行匹配及关联,分析文本块中所有文本候选框之间的连接情况,找出有歧义的文本块;构建由图像编码器、文本编码器和跨模态编码器组成的语义感知模块,通过对比学习、匹配预测和掩码预测来训练该语义感知模块;使用训练好的语义感知模块对有歧义的文本块进行场景文字检测。
全文数据:
权利要求:
百度查询: 中国科学院信息工程研究所 一种高效准确的歧义场景文字检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。