买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多特征算子的乱码文档图片识别方法及系统_北京惠朗时代科技有限公司_202110143109.0 

申请/专利权人:北京惠朗时代科技有限公司

申请日:2021-02-02

公开(公告)日:2024-04-02

公开(公告)号:CN113158745B

主分类号:G06V30/42

分类号:G06V30/42;G06V10/40;G06V10/774

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2021.08.10#实质审查的生效;2021.07.23#公开

摘要:本发明提出了一种基于多特征算子的乱码文档图片识别方法,涉及图像识别领域。一种基于多特征算子的乱码文档图片识别方法,包括如下步骤:采集多个图像样本,对上述图像样本进行多尺度图像加强处理;将上述图像样本进行SIFT特征提取;对上述图像样本进行GIST特征提取;获取待检测图像,通过多数值KNN算法对上述待检测图像进行判定。此外本发明还提出了一种基于多特征算子的乱码文档图片识别系统,应用上述方法实现。本发明其能够提高识别乱码文档的准确率,提高对乱码文档识别的适用范围。

主权项:1.一种基于多特征算子的乱码文档图片识别方法,其特征在于,包括如下步骤:(1)采集多个图像样本,对所述图像样本进行多尺度图像加强处理;(2)将所述图像样本进行SIFT特征提取;(3)对所述图像样本进行GIST特征提取;(4)获取待检测图像,通过多数值KNN算法对所述待检测图像进行判定;所述图像样本包括正常训练样本和负正常训练样本,选取多个非乱码文档图片作为所述正常训练样本,选取多个乱码文档图片作为所述负正常训练样本;将所述正常训练样本和所述负正常训练样本分别进行多尺度的高斯模糊;将模糊后的所述正常训练样本和所述负正常训练样本分别和原图做减法,得到不同程度的细节信息;将不同程度的细节信息加权到原图中,得到含有丰富细节信息的加强图像;步骤(4)中,利用步骤(1)~(3)对所有所述图像样本进行处理后通过数值KNN算法模型存储,利用所述数值KNN算法模型对所述待检测图像进行判定;步骤(4)包括如下步骤:计算所述待检测图像分别与各所述训练样本之间的欧式距离,利用欧式距离得到相似度高的多个所述训练样本,判断得到的多个所述训练样本是否属于所述正常训练样本或负正常训练样本,当多数属于正常训练样本时判定所述待检测图像为非乱码文档图片,否则判定所述待检测图像为乱码文档图片;计算所述待检测图像分别与各所述训练样本之间的欧式距离,利用欧式距离得到相似度高的多个所述训练样本包括:基于SIFT特征算子的欧式距离计算所述待检测图像与其它训练样本的空间距离;基于GIST特征算子的欧式距离计算它与其它训练样本的空间距离;对两种特征算子的欧式距离进行等权重加权,得到与所述待检测图像最相似的多个所述训练样本。

全文数据:

权利要求:

百度查询: 北京惠朗时代科技有限公司 一种基于多特征算子的乱码文档图片识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。