【发明授权】一种基于词匹配和语法匹配的OCR后处理方法_东南大学_202110567957.4

导航：龙图腾网> 最新专利技术> 一种基于词匹配和语法匹配的OCR后处理方法_东南大学_202110567957.4

申请/专利权人：东南大学

申请日：2021-05-24

公开（公告）日：2024-04-30

公开（公告）号：CN113269192B

主分类号：G06V30/148

分类号：G06V30/148;G06F40/284;G06F40/211;G06V30/19

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2021.09.03#实质审查的生效;2021.08.17#公开

摘要：本发明公开一种基于词匹配和语法匹配技术的OCR后处理方法，通过单字识别获取每个字对应识别的前K个结果集合，对于每一段文本，取每个字对应最大概率的识别结果作为初步序列进行分词，对分词后的词语进行基于语料库的词匹配操作，选取前置识别模块中最大概率的字组合更新词语；对分词后的单字进行语法匹配的操作，将单字识别的K个结果分别进行语法分析匹配，取最大可能的结果更新单字。上述两步融合后作为后处理的输出结果。本发明充分挖掘了文本句法信息，对于单字和多字词分别处理，体现了良好的适应性，与传统的基于词匹配的技术相比，特别是基于质量较低的文本上，采用本方法优势更为明显，具有较高的应用价值。

主权项：1.一种基于词匹配和语法匹配的OCR后处理方法，其特征在于，所述方法包括以下步骤：步骤1前置OCR单字识别模块，通过OCR的前序模块定位场景中的文字信息并对单字进行识别，保存最有可能的前K个识别结果及其对应概率；步骤2分词，取每个字最大概率的识别结果作为初始结果，使用主流分词工具对文本序列进行分词；步骤3基于中文词典的正向最大词匹配，对于分词后的多字词，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，对初始结果进行更正；步骤4多语料词法切分，根据步骤2的结果，对单字词的K个识别结果代入文本分别进行语法切分并保存；步骤5基于中文语法库的语法匹配，对于分词后的单字词，根据句法先验知识，将K个不同的语法切分结果进行筛选后选取步骤1中概率值最高的结果进行更正；步骤6在对单字和多字词分别处理后输出识别结果。

全文数据：

权利要求：

百度查询：东南大学一种基于词匹配和语法匹配的OCR后处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种靶向性介孔聚多巴胺纳米颗粒及其制备方法和应用_中国药科大学_202410163612.6

下一篇：一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

相关技术

一种靶向性介孔聚多巴胺纳米颗粒及其制备方法和应用_中国药科大学_202410163612.6

一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

一种处理安全漏洞的方法及装置、系统、计算机程序产品_上海商米科技集团股份有限公司_202410155802.3

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

设备控制方法、装置、配电设备及存储介质_深圳市正浩创新科技股份有限公司_202410171534.4

一种智能监控法兰及其监控系统_芜湖中集瑞江汽车有限公司_202410324184.0

网站类别的识别方法及装置、设备、存储介质_中国移动通信集团有限公司_202311640121.8

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

龙图腾网&IPTOP

【发明授权】一种基于词匹配和语法匹配的OCR后处理方法_东南大学_202110567957.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务