买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文本检测模型的训练方法、文本检测方法及装置_杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司_202311735371.X 

申请/专利权人:杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司

申请日:2023-12-18

公开(公告)日:2024-03-22

公开(公告)号:CN117423116B

主分类号:G06V30/19

分类号:G06V30/19;G06V30/148;G06V30/18;G06V30/14;G06V10/766;G06V10/82;G06N3/0464;G06N3/045;G06N3/098

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.02.06#实质审查的生效;2024.01.19#公开

摘要:本申请提出一种文本检测模型的训练方法、文本检测方法及装置,将文本检测模型的训练划分为了两个核心阶段:“预训练阶段”与“联合训练阶段”,其中利用“预训练阶段”对文档中边框的识别结果进行优化,避免文本框检测出现混淆与粘连等情况,进而将“预训练阶段”中的关键单元“文本区域预测分支网络”参与到“联合训练阶段”,从而在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。

主权项:1.一种文本检测模型的训练方法,其特征在于,所述方法应用模型训练系统,所述模型训练系统包括预训练模型和文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述预训练模型包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;所述方法,包括:将样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图;将所述第二已还原特征图输入所述待训练文本边框预测分支网络,获得所述样本数据对应的文本边框预测特征图;将所述第二已还原特征图输入所述待训练文本区域预测分支网络,获得所述样本数据对应的文本区域预测特征图;根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络;将样本数据输入所述文本区域预测分支网络获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;将所述样本数据输入所述第一特征处理网络获得第一已还原特征图;通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;将所述已学习特征图输入所述第一预测网络获得待验证预测结果;根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。

全文数据:

权利要求:

百度查询: 杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司 一种文本检测模型的训练方法、文本检测方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。