【发明授权】一种基于OCR的版式文件防伪识别方法_北京点聚信息技术有限公司_202410122097.7

导航：龙图腾网> 最新专利技术> 一种基于OCR的版式文件防伪识别方法_北京点聚信息技术有限公司_202410122097.7

申请/专利权人：北京点聚信息技术有限公司

申请日：2024-01-30

公开（公告）日：2024-04-05

公开（公告）号：CN117648409B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/35;G06F18/23;G06V30/19;G06F40/289;G06F40/216

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2024.03.22#实质审查的生效;2024.03.05#公开

摘要：本发明涉及数据处理技术领域，具体涉及一种基于OCR的版式文件防伪识别方法，该方法包括：通过建立版式文件基准库训练OCR模型，结合OCR模型及隐马尔科夫模型得到待防伪识别的版式文件中各词项，根据各词项的搭配词项的词性得到各词项的搭配灵活权重；结合各词项在其文本类别中的出现频率分析各词项的重要性，构建各词项的特征向量得到需要对比的词项，将其与版式文件基准库中对应词项比较得到待防伪识别的版式文件的基准相似度，结合预设相似度阈值进行防伪识别。从而实现基于OCR的版式文件防伪识别，降低了进行防伪识别计算时资源消耗量，提高了防伪识别结果的可靠性。

主权项：1.一种基于OCR的版式文件防伪识别方法，其特征在于，该方法包括以下步骤：收集版式文件建立版式文件基准库，将版式文件基准库中的版式文件作为训练样本，采用OCR技术对训练样本中的文字区域进行识别，之后根据标注好的版式文件数据集训练OCR模型，得到训练好的OCR模型；将待防伪识别的版式文件作为待处理文件；将待处理文件输入OCR模型得到待处理文件中各文本类别的文本字符序列；通过隐马尔科夫模型获取各文本类别的文本字符序列中每个词项；通过jieba分词算法获取待处理文件中各词项的词性；在各文本类别中，根据文本词项序列中词项的相邻词项得到各词项的搭配序列；根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数；根据各词项的搭配词性总数得到各词项在文本类别中的词性灵活权重；获取各词项的词性灵活权重的负相关函数；根据各词项包含的字数及出现频率得到各词项在文本类别中的频率权重；获取各词项的搭配序列的出现频率；根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重；通过词频-逆文档频率算法获取文本类别中各词项的词频-逆文档频率值；将各词项的词性灵活权重的负相关函数、频率权重、关联权重及词频-逆文档频率值组成各词项的特征向量；通过K-shape聚类算法对文本类别中特征向量聚类得到文本类别中各聚类簇；在各聚类簇中，根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子；将文本类别中词项特征因子最大的聚类簇中所有词项作为文本类别中需要比对的词项；根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度；根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别。

全文数据：

权利要求：

百度查询：北京点聚信息技术有限公司一种基于OCR的版式文件防伪识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种烹饪器具_杭州老板电器股份有限公司_202210803322.4

下一篇：面向自动驾驶汽车的运行设计区域构建方法和装置_同济大学_202110901295.X

相关技术

一种烹饪器具_杭州老板电器股份有限公司_202210803322.4

面向自动驾驶汽车的运行设计区域构建方法和装置_同济大学_202110901295.X

一种五轴坐标设备快速定制后处理模块的方法_中国航发沈阳黎明航空发动机有限责任公司_202211397667.0

一种打扣机及工作方法_汇新智能科技(苏州)有限公司_201910831010.2

一种发动机扭矩控制方法、装置及车辆_长城汽车股份有限公司_202111257306.1

管接头用螺母、管接头、流体压力设备及流体控制系统、螺母旋转用夹具及螺旋旋转方法_SMC株式会社_202011038931.2

一种亚克力复合装饰砖_江苏汤臣新材料科技有限公司_202211080592.3

估计浓度的装置和方法以及生成浓度估计模型的装置_三星电子株式会社_201910738775.1

一种视频检测方法及系统_湖南获课软件开发有限公司_201910997169.1

一种电力电缆加工设备_广州溶江线材有限公司_202111263852.6

用于输送物料的步进式循环动力装置_天津新玛特科技发展有限公司_201910898294.7

基于NX变形设计的坚果异物智能监测系统的设计方法_浙江农林大学_202110880161.4

龙图腾网&IPTOP

【发明授权】一种基于OCR的版式文件防伪识别方法_北京点聚信息技术有限公司_202410122097.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务