【发明授权】一种基于上下边界提取的自然场景下文字检测方法_南京大学_202110265373.1

导航：龙图腾网> 最新专利技术> 一种基于上下边界提取的自然场景下文字检测方法_南京大学_202110265373.1

申请/专利权人：南京大学

申请日：2021-03-11

公开（公告）日：2024-04-19

公开（公告）号：CN112861860B

主分类号：G06V10/25

分类号：G06V10/25;G06V10/44;G06V30/19;G06N3/0464;G06N3/08;G06T7/11

优先权：

专利状态码：有效-授权

法律状态：2024.04.19#授权;2021.06.15#实质审查的生效;2021.05.28#公开

摘要：本发明公开了一种基于上下边界提取的自然场景下文字检测方法，涉及计算机视觉文字检测和图像分割领域。具体包括：步骤1，通过卷积神经网络模型提取图像的特征图，并通过多尺度特征金字塔模型对特征图进行增强；步骤2，通过语义分割模型预测文字的中心区域，上边界区域，下边界区域和文字的整体区域；步骤3，通过广度优先搜索将中心区域逐步扩展至整体区域，同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线；步骤4，组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。优点在于能够提取图像中文字的上下边界并定位文字区域，能够进行自然场景下的图像文字检测。

主权项：1.一种基于上下边界提取的自然场景下文字检测方法，其特征在于，包括如下步骤：步骤1，通过卷积神经网络模型提取输入图像的特征图，并通过多尺度特征金字塔模型对特征图进行增强；步骤2，通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域；步骤3，通过广度优先搜索将中心区域逐步扩展至整体区域，同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线；步骤4，组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果；其中，步骤2中，通过如下步骤建立和训练基于卷积神经网络的语义分割模型：步骤2-1，根据输入图像中的文字标注多边形框，生成其整体文字区域分割图：首先生成一张与输入图像大小一样的分割目标图，其次将文字区域填充为1，非文字区域填充为0，最终得到文字整体区域的分割目标图；步骤2-2，根据输入图像中的文字标注多边形框，生成其文字中心区域分割图，具体的，首先生成一张与输入图像大小一样的分割目标图，然后将原始的文字标注多边形框向内部收缩d个像素，收缩规则如下所示：其中，Area为面积函数，Perimeter为周长函数，bbox为文字框，r为放缩尺度；收缩后的多边形框即为文字中心区域标注的多边形框，将收缩后的多边形框内部填充为1，外部填充为0，则得到文字中心区域的分割目标图；步骤2-3，首先计算文字标注框的上边界区域和下边界区域分别对应的上边界点topi和下边界点boti，计算如下：top_boundi＝topi*1-α+boti*αbot_boundi＝boti*1-α+topi*α其中，α是一个超参数，代表定义的文字上下边界区域的宽度；由此，top_boundi和topi组成了上边界相对应的一组边界点，同理得到下边界相对应的一组边界点；将计算得到的上下边界点分别连接起来，即为文字的上下边界区域，将得到的上下边界区域内部填充为1，外部填充为0，得到文字上下边界区域的分割目标图；步骤2-4，将步骤1中所得到的大小为的特征图输入语义分割模型中，经过由卷积层，上采样层和另一个卷积层构成的分割模块，最终输出大小为batchsize,4,H,W的分割预测结果图；其中，4为4个分割预测结果，即文字的整体区域、中心区域、上边界区域和下边界区域；步骤2-5，建立损失函数，将步骤2-4中得到的分割预测结果pred与步骤2-1～2-3中得到的分割目标target计算loss：loss＝DiceLosspred,target具体的，DiceLoss由以下步骤计算，首先计算dice系数dice,coefficient：则DiceLoss由以下公式计算得出：DiceLosspred,target＝1-DiceCoefficientpred*M,target*M其中，M表示训练过程中的梯度回传掩码，由步骤1-2计算得到；分别在四个区域上计算对应的损失函数，最后将它们加权求和：Loss＝λtextlosstext+λkernellosskernel+λtoplosstop+λbotlossbot其中λ分别表示不同区域的训练权重，loss分别表示不同区域的训练损失值，计算结束即得到分割预测结果与分割目标之间的损失值；步骤2-6，建立优化函数，使用基于随机梯度下降的优化方法对得到的损失值计算梯度并相应更新卷积神经网络模型和语义分割模型中的参数；步骤3中，通过如下步骤进行测试，将分割预测结果的中心区域逐步扩展至整体区域，并通过对上下边界区域进行滤波操作得到文字的形式化上下边界线：步骤3-1，对任意自然场景图像经过卷积神经网络和多尺度特征金字塔模型提取特征图，然后经过上采样操作得到大小为batchsize,4,H,W的分割预测结果图；步骤3-2，定位文字中心区域，设定一个固定阈值σ＝0.8对中心区域分割预测结果图进行二值化，即对中心区域分割图的每个像素进行以下计算：其中，kernel表示中心区域分割图，将二值化后的中心区域分割图计算其连通分量，计算后产生的不同连通分量再滤除掉其中像素面积小于阈值μ的连通分量，最终保留的连通分量结果即为不同的文字实例的中心区域分割结果；步骤3-3，以步骤3-2得到的中心区域分割结果图为开始，使用广度优先搜索向外扩展至文字整体区域；得到不同文字实例的整体区域分割结果图；步骤3-4，定位文字上下边界区域，以文字上边界区域为例，将上边界区域分割预测结果图与步骤3-3中得到的不同文字实例的整体区域分割结果图进行按位相与操作：topi,j＝topi,jtexti,j其中，top表示上边界区域分割图，text表示由步骤3-3得到的不同文字实例的整体区域分割结果图；计算结果即是每个文字实例的上边界分割结果，同理得到每个文字实例的下边界分割结果，然后对该上下边界分割结果进行细化；步骤4具体包括：步骤4-1，对每一个由文字中心区域经步骤3-3扩展得到的文字整体区域，通过与上下边界区域进行按位相与的操作找到该文字对应的上下边界线；步骤4-2，对步骤4-1产生的所有文字整体区域、文字中心区域、上下边界线组合成对，并根据规则过滤掉不符合条件的文字；其中，过滤规则为去除没有上边界线或者下边界线的文字；步骤4-3，保留下来的文字有各自的上边界线和下边界线以及对应的在边界线上均匀采样的k个顶点，将每个文字的2*k个顶点作为该文字的轮廓点，生成了该文字基于上下边界的形式化表示，得到该文字的检测结果；其中，步骤3-4中的细化操作包括生成一个3×1的滤波器F，其具体参数为：经过以下运算：Boundary＝top·F0得到文字上边界区域细化后的边界线，保留像素值大于0的像素为文字上边界区域细化后的边界线结果，将得到的边界线像素根据其横坐标从小到大排序并均匀地从中采样k个点，这k个点即是文字上边界区域的形式化边界线；同理求得下边界线。

全文数据：

权利要求：

百度查询：南京大学一种基于上下边界提取的自然场景下文字检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

下一篇：光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

相关技术

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

基于无监督学习的多视角显著性估计方法_西北工业大学_202011250827.X

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

一种带有环状槽的齿轮制备模具_蓝山县金山川粉末冶金有限公司_202111384059.1

一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

RS485总线中多传感器编址方法、数据采集设备和系统_广州鲁邦通物联网科技股份有限公司_202011486283.7

掩模缺陷的检测方法_中国科学院上海高等研究院_202310202672.X

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

文字相关技术

一种线束表面文字标示印刷涂布设备_常州艾博格电器有限公司_202410172320.9

一种web页面文字加密的反爬虫方法_天翼云科技有限公司_202311722411.7

基于人工智能的文字识别方法及装置、电子设备_平安银行股份有限公司_202111017840.5

一种基于特征解耦合的文字-图像对生成方法和装置_之江实验室_202210148651.X

基于图片和文字的社交媒体关键词数据分析方法及装置_一网互通(北京)科技有限公司_202410429676.6

一种文字识别方法、装置及电子设备_阿里巴巴集团控股有限公司_202010003178.7

基于九宫格输入法的文字输入方法、装置、设备及产品_腾讯科技(深圳)有限公司_202211351543.9

文字编辑方法及装置_华为技术有限公司_202211362765.0

文字增强方法、装置、设备及介质_广州视源电子科技股份有限公司_202211337358.4

一种基于视频通讯的语音转文字方法_普强信息技术(北京)有限公司_202010547221.6

场景相关技术

场景类别的确定方法和场景分析模型的训练方法、装置_北京地平线机器人技术研发有限公司_201910537822.6

场景识别模型训练方法、场景识别方法及装置_支付宝(杭州)信息技术有限公司_202410240495.9

一种视觉场景识别装置_南京鸿源信息技术有限公司_202322553896.3

基于场景化的教练辅助系统_刘居义_202010307905.9

场景图像合成方法及装置_深圳须弥云图空间科技有限公司_202410266730.X

音频场景识别方法及电子设备_荣耀终端有限公司_202310152921.9

一种可多场景使用的蓝牙音箱_东莞市乐尊电子科技有限公司_202322219536.X

燃气管道线路接触场景识别系统_广州中为生物科技有限公司_202410276690.7

一种基于数据孪生的场景构建方法_云南云金地科技有限公司_202410266011.8

一种虚拟场景模型检索方法_绍兴数鸿科技有限公司_202311768110.8

自然相关技术

一种自然发酵提取唾液酸设备_无锡天中辅润生物科技有限公司_202322563398.7

基于自然语言处理和AI作图的新的思想交流方式_梁标泳_202211400503.9

一种基于全景引擎的自然资源数据信息分析方法及系统_浙江省自然资源厅服务中心_202311544247.5

自然混纱的加捻方法、加捻编织方法及加捻装置_信泰(福建)科技有限公司_201810146528.8

一种自然科学研究用生物培养装置_山东华海教育发展集团有限公司_202322673093.1

一种基于人工智能的自然语言处理方法及系统_云南电网有限责任公司信息中心_202410169223.4

一种面向自然资源常态化监测的遥感影像快速选取方法_广东省国土资源测绘院_202311754222.8

基于自然语言处理的低代码开发方法、系统及存储介质_西南林业大学_202410411300.2

一种混合自然冷却的储能冷水机控制方法及系统_常州博瑞电力自动化设备有限公司_202311854274.2

一种自然能源岛智能供能系统及控制方法_润泰新能源集团有限公司_202410267315.6

龙图腾网&IPTOP

【发明授权】一种基于上下边界提取的自然场景下文字检测方法_南京大学_202110265373.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务