买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】OCR识别纠错方法、装置及设备_科大讯飞股份有限公司_201910955162.3 

申请/专利权人:科大讯飞股份有限公司

申请日:2019-10-09

公开(公告)日:2024-04-16

公开(公告)号:CN110751234B

主分类号:G06V30/262

分类号:G06V30/262;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2020.02.28#实质审查的生效;2020.02.04#公开

摘要:本发明公开了一种OCR识别纠错方法、装置及设备,其中方法包括:基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;利用所述最优分词序列替换所述识别结果。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。

主权项:1.一种OCR识别纠错方法,其特征在于,包括:基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;根据所述第一字符序列以及所述第二字符序列,确定最优分词序列,包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径;其中,分词单元路径用来表征所切分的单元片段,以第一分词单元路径中所切分的单元片段为单位组合为第一分词路径,以第二分词单元路径中所切分的单元片段为单位组合为第二分词路径;在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;并且,只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;汇总全部所述最优当前路径,得到最优分词路径;利用所述最优分词序列替换所述识别结果。

全文数据:

权利要求:

百度查询: 科大讯飞股份有限公司 OCR识别纠错方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。