买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种场景文本擦除模型的训练方法及装置_上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海生腾数据科技有限公司;上海盈五蓄数据科技有限公司_202311818509.2 

申请/专利权人:上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海生腾数据科技有限公司;上海盈五蓄数据科技有限公司

申请日:2023-12-26

公开(公告)日:2024-03-15

公开(公告)号:CN117709436A

主分类号:G06N3/0895

分类号:G06N3/0895;G06N3/084;G06T11/40;G06T5/77;G06T5/60

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明公开了一种场景文本擦除模型的训练方法。采用场景文本检测数据集作为场景文本擦除模型的训练集。将基线模型的最后一个分类层改为两个并行的分类层,由此将整个模型分为背景修复分支和文本擦除分支,得到场景文本擦除模型。训练背景修复分支;将部分遮挡的背景图像作为输入,要求预测文本区域和随机遮挡区域的背景填充内容;训练时使用背景图像作为该分支的标签对其学习过程进行监督。训练文本擦除分支;将输入图像作为输入,要求预测文本区域被擦除和修复后的背景填充内容;训练时使用替换后图像作为该分支的伪标签对其学习过程进行监督。本发明仅使用文本检测数据集以弱监督方式训练出场景文本擦除模型。

主权项:1.一种场景文本擦除模型的训练方法,其特征是,包括如下步骤;步骤S1:采用场景文本检测数据集作为场景文本擦除模型的训练集;训练集中的每个训练样本是一幅图像,每幅图像都有文本位置标签;步骤S2:选择基线模型;所述步骤S1和步骤S2的顺序或者任意在前,或者同时进行;步骤S3:调整所述基线模型的网络结构,将所述基线模型的最后一个分类层改为两个并行的分类层,由此将整个模型分为背景修复分支和文本擦除分支,得到场景文本擦除模型;步骤S4:训练背景修复分支;对于训练集中的任意训练样本,首先利用输入图像中的文本位置标签生成文本区域掩码,将该输入图像中的所有文本区域使用文本区域掩码遮罩得到背景图像;进而在该背景图像中生成随机覆盖部分区域的随机掩码,在该背景图像中得到随机掩码遮罩的部分遮挡的背景图像;将所述部分遮挡的背景图像作为背景修复分支的输入,要求背景修复分支预测文本区域和随机遮挡区域的背景填充内容;训练时使用背景图像作为该分支的标签对其学习过程进行监督;步骤S5:训练文本擦除分支;将该输入图像中的文本区域替换为背景修复分支预测的文本区域的背景填充内容,称为替换后图像;将输入图像作为文本擦除分支的输入,要求文本擦除分支预测文本区域被擦除和修复后的背景填充内容;训练时使用替换后图像作为该分支的伪标签对其学习过程进行监督;步骤S6:整个场景文本擦除模型使用梯度下降法进行更新,直至到达人工指定最大训练迭代次数;对于训练集中的每一个训练样本重复步骤S4至步骤S5。

全文数据:

权利要求:

百度查询: 上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海生腾数据科技有限公司;上海盈五蓄数据科技有限公司 一种场景文本擦除模型的训练方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。