买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于自蒸馏的半监督文本识别方法_复旦大学_202211103799.8 

申请/专利权人:复旦大学

申请日:2022-09-09

公开(公告)日:2024-03-22

公开(公告)号:CN117746449A

主分类号:G06V30/412

分类号:G06V30/412;G06N3/0464;G06N3/084;G06N3/088;G06V10/82;G06V30/19

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明提供了一种基于自蒸馏的半监督文本识别方法,包括:步骤S1‑1,将待识别文本图像经过预处理得到预处理文本图像;步骤S1‑2,将预处理文本图像输入预先训练好的文本识别模型进行推理,迭代地得到文本行中每一个位置的行文本识别结果;步骤S1‑3,对行文本识别结果中进行字符拼接得到最终的文本识别结果,其中,文本识别模型的训练过程包括监督学习训练阶段以及基于半监督学习框架进行的半监督学习训练阶段。因此本发明提供的基于自蒸馏的半监督文本识别方法在半监督学习框架的基础上实现了利用无标签数据的半监督学习,并通过基于注意力对齐的自蒸馏算法实现了效果更好、更加稳定的半监督学习。

主权项:1.一种基于自蒸馏的半监督文本识别方法,其特征在于,包括:步骤S1-1,将待识别文本图像经过预处理得到预处理文本图像;步骤S1-2,将预处理文本图像输入预先训练好的文本识别模型进行推理,迭代地得到文本行中每一个位置的行文本识别结果;步骤S1-3,对所述行文本识别结果中进行字符拼接得到最终的文本识别结果,其中,所述文本识别模型的训练过程包括监督学习训练阶段以及基于半监督学习框架进行的半监督学习训练阶段,所述半监督学习框架至少包括教师文本识别模块、预测结果筛选模块、注意力缓存模块、学生文本识别模块以及注意力对齐模块,所述教师文本识别模块包含教师模型,用于对轻度数据增强样本进行预测得到对应的注意力图作为第一预测结果,所述预测结果筛选模块利用所述教师文本识别模块的预测置信度对所述教师文本识别模块的预测结果进行筛选,从而得到高置信度的筛选结果,所述注意力缓存模块通过指数移动平均值对所述筛选结果对应的所述注意力图进行缓存形成注意力缓存,所述学生文本识别模块包含用于训练的学生模型,用于对重度数据增强样本进行预测得到第二预测结果,并通过该第二预测结果计算分类损失与注意力对齐损失,进一步通过反向传播对所述学生模型的模型参数进行更新,并将更新后的所述模型参数同步到所述教师模型中,所述注意力对齐模块在所述学生模型的训练过程中从所述注意力缓存中提取对应的注意力图,并用于所述学生模型的注意力对齐损失的计算,所述学生模型的初始状态为执行所述监督学习训练阶段后的文本识别模型。

全文数据:

权利要求:

百度查询: 复旦大学 基于自蒸馏的半监督文本识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。