买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】针对OCR图片的端到端含错文本分类识别仪_浙江大学_202011280156.1 

申请/专利权人:浙江大学

申请日:2020-11-16

公开(公告)日:2023-05-23

公开(公告)号:CN112434686B

主分类号:G06V30/14

分类号:G06V30/14;G06V30/164;G06V30/19;G06N3/0442;G06N3/0464;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2023.05.23#授权;2021.03.19#实质审查的生效;2021.03.02#公开

摘要:本发明公开了针对OCR图片的端到端含错文本分类识别仪,用于对OCR图片中存在文字识别错误的信息实现端到端的纠错并分类,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。本发明为了克服已有的OCR图片识别文字和含错文本分类系统相互独立、需要多阶段分步识别纠错并推理类别的缺点,通过结合高效、高精度且可学习的信息蒸馏模块,以及可以充分利用大量历史数据、可拓展性强的文本纠错模块和文本分类模块,建立了针对OCR图片含错文本分类问题的兼具精度和效率的端到端分类系统,能够很好地利用OCR信息实现具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

主权项:1.一种针对OCR图片的端到端含错文本分类识别仪,其特征在于:包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块;所述OCR信息提取模块、含错文本纠错模块、文本分类模块依次连接,所述信息蒸馏模块与文本分类模块相连接;所述的信息提取模块将OCR图片信息数据作为输入,输出文本信息,并通过含错文本纠错模块输出经过纠正的文本信息,后通过所述文本分类模块输出文本高维特征和分类概率分布,计算出当前分类结果的同时将文本高维特征和分类概率分布输入信息蒸馏模块;所述信息蒸馏模块通过输入的OCR图片与分类软标签向量进行训练,最终实现端到端的推理;所述含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子,即对齐语料,实现有监督学习该序列标注模型;在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;而候选排序则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;所述信息蒸馏模块,输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片;主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:软标签交叉熵算法:Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j]8每个样本对应类别j的软标签值:output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*loginput[i1,i2,...,ik,j]9其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表;通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别;所述信息蒸馏模块在推理阶段:输入为待分类的含文字图片,通过信息蒸馏模块中训练好的CNN模型后,即可输出对应含文字图片的分类类别。

全文数据:

权利要求:

百度查询: 浙江大学 针对OCR图片的端到端含错文本分类识别仪

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。