买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种针对竖排文本的检测方法及装置_国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所_202110588830.0 

申请/专利权人:国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所

申请日:2021-05-28

公开(公告)日:2023-08-29

公开(公告)号:CN115410207B

主分类号:G06V30/148

分类号:G06V30/148;G06F40/289;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2023.08.29#授权;2022.12.16#实质审查的生效;2022.11.29#公开

摘要:本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。

主权项:1.一种针对竖排文本的检测方法,其步骤包括:1扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;2截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本,其中t≥3;3对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;其中,所述根据得到第一分词结果,获取截取文本的初步检测结果,包括:设定一阈值;若第一分词结果中单字的数量大于所述阈值,则判断截取文本为竖排文本;否则,判断为横排文本;4若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;5对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果;其中,所述根据得到第二分词结果,获取截取文本的检测结果,包括:将第二分词结果中词汇的数量与第一分词结果中词汇的数量进行对比;若第二分词结果中词汇的数量大于第一分词结果中词汇的数量,则判断截取文本为竖排文本;否则,判断为横排文本。

全文数据:

权利要求:

百度查询: 国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所 一种针对竖排文本的检测方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。