买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于特征关联的公文文本识别方法和装置_成都网安科技发展有限公司_202011551817.X 

申请/专利权人:成都网安科技发展有限公司

申请日:2020-12-24

公开(公告)日:2024-03-05

公开(公告)号:CN112507968B

主分类号:G06V30/416

分类号:G06V30/416;G06F40/216;G06F40/289;G06F40/12

优先权:

专利状态码:有效-授权

法律状态:2024.03.05#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要:本申请提供的基于特征关联的公文文本识别方法和装置,涉及文本识别技术领域。在本申请中,首先,基于公文文本具有的识别要素对待识别文本进行识别处理得到每一个识别要素的识别结果。其次,基于得到的识别结果构建目标文本向量。然后,基于目标位置信息和权重系数分别对目标文本向量进行更新处理得到第一文本向量和第二文本向量,其中,目标位置信息包括目标文本向量中每一个第一识别值对应的识别要素在待识别文本中的位置信息,权重系数基于对公文文本样本进行处理得到。最后,基于第一文本向量、第二文本向量和文本概率阈值,确定待识别文本是否属于公文文本。基于上述方法,可以改善基于现有技术难以对公文文本进行有效识别的问题。

主权项:1.一种基于特征关联的公文文本识别方法,其特征在于,包括:基于公文文本具有的多个识别要素对待识别文本进行识别处理,得到每一个识别要素对应的识别结果,其中,该识别结果包括第一识别值或第二识别值,该第一识别值用于表征该待识别文本中具有对应的识别要素,该第二识别值用于表征该待识别文本中不具有对应的识别要素;基于得到的多个所述识别结果构建目标文本向量,其中,该目标文本向量的维度数量为所述多个识别要素的数量;分别基于预先得到的目标位置信息和权重系数对所述目标文本向量进行更新处理,得到对应的第一文本向量和第二文本向量,其中,该目标位置信息包括该目标文本向量中每一个第一识别值对应的识别要素在所述待识别文本中的位置信息,该权重系数基于对公文文本样本进行处理得到;基于所述第一文本向量、所述第二文本向量和预先确定的文本概率阈值,确定所述待识别文本是否属于公文文本;其中,所述分别基于预先得到的目标位置信息和权重系数对所述目标文本向量进行更新处理,得到对应的第一文本向量和第二文本向量的步骤,包括:针对所述目标文本向量中的每一个第一识别值,获得该第一识别值对应的识别要素在所述待识别文本中的位置信息;针对每一个识别要素的位置信息,基于该位置信息和该识别要素对应的高斯分布公式,得到对应的高斯分布值,其中,该高斯分布公式的均值参数和标准差参数,基于多个公文文本样本中该识别要素的位置信息确定;针对得到的每一个高斯分布值,基于该高斯分布值对该高斯分布值对应的第一识别值进行更新处理,得到对应的第一文本向量;针对每一个所述公文文本样本,基于该公文文本样本包括的识别要素,构建该公文文本样本对应的要素列表,其中,该公文文本样本为多个;基于构建的多个所述要素列表包括的多个识别要素,构建频繁n项集,得到多个频繁n项集,其中,n包括1和该多个识别要素的数量之间的每一个整数;针对每一个所述频繁n项集,基于该频繁n项集在多个所述要素列表中出现的次数和该要素列表的数量,得到该频繁n项集的支持度;在所述多个频繁n项集中,基于所述目标文本向量中的每一个第一识别值,确定出目标频繁n项集;基于所述目标频繁n项集的支持度进行求和处理,得到权重系数;基于所述权重系数对所述目标文本向量进行更新处理,得到对应的第二文本向量,其中,该更新处理包括将该权重系数和该目标文本向量相乘。

全文数据:

权利要求:

百度查询: 成都网安科技发展有限公司 基于特征关联的公文文本识别方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。