【发明授权】基于特征关联的公文文本识别方法和装置_成都网安科技发展有限公司_202011551817.X

导航：龙图腾网> 最新专利技术> 基于特征关联的公文文本识别方法和装置_成都网安科技发展有限公司_202011551817.X

申请/专利权人：成都网安科技发展有限公司

申请日：2020-12-24

公开（公告）日：2024-03-05

公开（公告）号：CN112507968B

主分类号：G06V30/416

分类号：G06V30/416;G06F40/216;G06F40/289;G06F40/12

优先权：

专利状态码：有效-授权

法律状态：2024.03.05#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要：本申请提供的基于特征关联的公文文本识别方法和装置，涉及文本识别技术领域。在本申请中，首先，基于公文文本具有的识别要素对待识别文本进行识别处理得到每一个识别要素的识别结果。其次，基于得到的识别结果构建目标文本向量。然后，基于目标位置信息和权重系数分别对目标文本向量进行更新处理得到第一文本向量和第二文本向量，其中，目标位置信息包括目标文本向量中每一个第一识别值对应的识别要素在待识别文本中的位置信息，权重系数基于对公文文本样本进行处理得到。最后，基于第一文本向量、第二文本向量和文本概率阈值，确定待识别文本是否属于公文文本。基于上述方法，可以改善基于现有技术难以对公文文本进行有效识别的问题。

主权项：1.一种基于特征关联的公文文本识别方法，其特征在于，包括：基于公文文本具有的多个识别要素对待识别文本进行识别处理，得到每一个识别要素对应的识别结果，其中，该识别结果包括第一识别值或第二识别值，该第一识别值用于表征该待识别文本中具有对应的识别要素，该第二识别值用于表征该待识别文本中不具有对应的识别要素；基于得到的多个所述识别结果构建目标文本向量，其中，该目标文本向量的维度数量为所述多个识别要素的数量；分别基于预先得到的目标位置信息和权重系数对所述目标文本向量进行更新处理，得到对应的第一文本向量和第二文本向量，其中，该目标位置信息包括该目标文本向量中每一个第一识别值对应的识别要素在所述待识别文本中的位置信息，该权重系数基于对公文文本样本进行处理得到；基于所述第一文本向量、所述第二文本向量和预先确定的文本概率阈值，确定所述待识别文本是否属于公文文本；其中，所述分别基于预先得到的目标位置信息和权重系数对所述目标文本向量进行更新处理，得到对应的第一文本向量和第二文本向量的步骤，包括：针对所述目标文本向量中的每一个第一识别值，获得该第一识别值对应的识别要素在所述待识别文本中的位置信息；针对每一个识别要素的位置信息，基于该位置信息和该识别要素对应的高斯分布公式，得到对应的高斯分布值，其中，该高斯分布公式的均值参数和标准差参数，基于多个公文文本样本中该识别要素的位置信息确定；针对得到的每一个高斯分布值，基于该高斯分布值对该高斯分布值对应的第一识别值进行更新处理，得到对应的第一文本向量；针对每一个所述公文文本样本，基于该公文文本样本包括的识别要素，构建该公文文本样本对应的要素列表，其中，该公文文本样本为多个；基于构建的多个所述要素列表包括的多个识别要素，构建频繁n项集，得到多个频繁n项集，其中，n包括1和该多个识别要素的数量之间的每一个整数；针对每一个所述频繁n项集，基于该频繁n项集在多个所述要素列表中出现的次数和该要素列表的数量，得到该频繁n项集的支持度；在所述多个频繁n项集中，基于所述目标文本向量中的每一个第一识别值，确定出目标频繁n项集；基于所述目标频繁n项集的支持度进行求和处理，得到权重系数；基于所述权重系数对所述目标文本向量进行更新处理，得到对应的第二文本向量，其中，该更新处理包括将该权重系数和该目标文本向量相乘。

全文数据：

权利要求：

百度查询：成都网安科技发展有限公司基于特征关联的公文文本识别方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

下一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

相关技术

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

公文相关技术

企业级办公文档空间分配方法及装置_中国建设银行股份有限公司_202410008346.X

一种基于人工智能的电力系统公文数据管理系统及方法_国网湖北省电力有限公司信息通信公司_202410120142.5

基于云计算的电子公文加密签署交换方法_北京点聚信息技术有限公司_202410122239.X

一种方便携带式公文包_泉州恒励箱包有限公司_202322496743.X

一种公文流转交换用的智能柜_天津条码科技有限公司_202322155234.0

信创环境下实现类POP3公文传输协议的方法_南威软件股份有限公司_202311672721.2

电子公文文表一致的自动化方法、系统、设备和介质_中国电子科技集团公司第十五研究所_202311690718.3

基于云计算的电子公文加密签署交换方法_北京点聚信息技术有限公司_202410122239.X

基于特征关联的公文文本识别方法和装置_成都网安科技发展有限公司_202011551817.X

一种基于人工智能的电力系统公文数据管理系统及方法_国网湖北省电力有限公司信息通信公司_202410120142.5

文本相关技术

一种文本推荐方法、系统、存储介质和设备_济南大学_202111016193.6

一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

文本检测方法、装置、计算机设备和存储介质_腾讯科技(深圳)有限公司_202011020108.9

一种文本行图片的解码方法、装置和设备_北京有竹居网络技术有限公司_202110558943.6

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

文本意图识别方法、装置、设备和存储介质_平安科技(深圳)有限公司_202010033742.X

文本细粒度情感分类方法、系统、装置及存储介质_华南理工大学_202010560649.4

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

识别相关技术

结构识别模型训练、模型结构识别方法、设备及介质_北京燧原智能科技有限公司_202410090059.8

拉丝枪自动识别电路、识别方法及电焊机系统_深圳市瑞凌实业股份有限公司_201711345496.6

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

文字识别模型训练及其识别方法、装置、设备和介质_北京百度网讯科技有限公司_202310002789.3

标签识别网络的训练方法、标签识别装置/方法及设备_京东方科技集团股份有限公司_201811353105.X

一种楼宇门禁识别器_江苏卓茂智能科技有限公司_202322029488.8

基于称重的手卫生识别装置_昂科信息技术(上海)股份有限公司_202322729429.1

语音识别歧义消除方法及装置_青岛海尔电冰箱有限公司_202211290249.1

识别传感器及其控制方法、汽车、车辆用灯具、对象识别系统、对象的识别方法_株式会社小糸制作所_201880053552.5

一种用于唇语识别的智能手环、唇语识别系统及方法_中国银行股份有限公司_202010916908.2

龙图腾网&IPTOP

【发明授权】基于特征关联的公文文本识别方法和装置_成都网安科技发展有限公司_202011551817.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务