买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于OCR的版式文件防伪识别方法_北京点聚信息技术有限公司_202410122097.7 

申请/专利权人:北京点聚信息技术有限公司

申请日:2024-01-30

公开(公告)日:2024-04-05

公开(公告)号:CN117648409B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F18/23;G06V30/19;G06F40/289;G06F40/216

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2024.03.22#实质审查的生效;2024.03.05#公开

摘要:本发明涉及数据处理技术领域,具体涉及一种基于OCR的版式文件防伪识别方法,该方法包括:通过建立版式文件基准库训练OCR模型,结合OCR模型及隐马尔科夫模型得到待防伪识别的版式文件中各词项,根据各词项的搭配词项的词性得到各词项的搭配灵活权重;结合各词项在其文本类别中的出现频率分析各词项的重要性,构建各词项的特征向量得到需要对比的词项,将其与版式文件基准库中对应词项比较得到待防伪识别的版式文件的基准相似度,结合预设相似度阈值进行防伪识别。从而实现基于OCR的版式文件防伪识别,降低了进行防伪识别计算时资源消耗量,提高了防伪识别结果的可靠性。

主权项:1.一种基于OCR的版式文件防伪识别方法,其特征在于,该方法包括以下步骤:收集版式文件建立版式文件基准库,将版式文件基准库中的版式文件作为训练样本,采用OCR技术对训练样本中的文字区域进行识别,之后根据标注好的版式文件数据集训练OCR模型,得到训练好的OCR模型;将待防伪识别的版式文件作为待处理文件;将待处理文件输入OCR模型得到待处理文件中各文本类别的文本字符序列;通过隐马尔科夫模型获取各文本类别的文本字符序列中每个词项;通过jieba分词算法获取待处理文件中各词项的词性;在各文本类别中,根据文本词项序列中词项的相邻词项得到各词项的搭配序列;根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数;根据各词项的搭配词性总数得到各词项在文本类别中的词性灵活权重;获取各词项的词性灵活权重的负相关函数;根据各词项包含的字数及出现频率得到各词项在文本类别中的频率权重;获取各词项的搭配序列的出现频率;根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重;通过词频-逆文档频率算法获取文本类别中各词项的词频-逆文档频率值;将各词项的词性灵活权重的负相关函数、频率权重、关联权重及词频-逆文档频率值组成各词项的特征向量;通过K-shape聚类算法对文本类别中特征向量聚类得到文本类别中各聚类簇;在各聚类簇中,根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子;将文本类别中词项特征因子最大的聚类簇中所有词项作为文本类别中需要比对的词项;根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度;根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别。

全文数据:

权利要求:

百度查询: 北京点聚信息技术有限公司 一种基于OCR的版式文件防伪识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。