申请/专利权人:山东汇商脉网络科技有限公司
申请日:2023-09-19
公开(公告)日:2024-03-22
公开(公告)号:CN117216217B
主分类号:G06F16/332
分类号:G06F16/332;G06F16/33;G06F16/35;G06F40/216;G06F40/289
优先权:
专利状态码:有效-授权
法律状态:2024.03.22#授权;2023.12.29#实质审查的生效;2023.12.12#公开
摘要:本发明涉及分类检索的技术领域,公开了一种档案智能分类与检索方法,所述方法包括:将电子档案构建为词图模型,并根据词图模型计算电子档案中每个候选词的TFIDF特征和候选词位置特征;计算电子档案中候选词间的概率转移矩阵;对概率转移矩阵进行迭代计算得到候选词的初始得分;基于提取的K核子图计算得到电子合同中候选词的层级特征和平均信息熵特征;在候选词初始得分的基础上,融合层级特征及平均信息熵特征确定电子档案关键词;根据电子档案关键词进行档案分类并支持基于关键词的档案快速检索。本发明基于候选词的位置重要性、词频重要性、与其他候选词的关联程度以及信息量确定电子档案中关键词,实现电子档案分类以及检索处理。
主权项:1.一种档案智能分类与检索方法,其特征在于,所述方法包括:S1:将电子档案构建为词图模型,并根据词图模型计算电子档案中每个候选词的TFIDF特征和候选词位置特征;S2:根据计算得到的电子档案TFIDF特征和候选词位置特征计算电子档案中候选词间的概率转移矩阵;S3:对概率转移矩阵进行迭代计算,得到候选词的初始得分;S4:从所构建的词图模型中提取得到K核子图;S5:基于提取的K核子图计算得到电子合同中候选词的层级特征和平均信息熵特征;S6:在候选词初始得分的基础上,融合层级特征及平均信息熵特征确定电子档案关键词;S7:根据电子档案关键词进行档案分类并支持基于关键词的档案快速检索;所述S1步骤中将电子档案构建为词图模型,包括:将电子档案构建为词图模型,其中第i份电子档案的词图模型构建流程为:S11:对电子档案进行分句分词处理,其中分句分词处理结果为: 其中: 表示电子档案中第j个句子的分词处理结果,表示电子档案的句子总数; 表示分词处理结果中的第个词语,表示分词处理结果中的词语总数;S12:从电子档案的分句分词处理结果中提取名词作为电子档案的候选词,则电子档案的去重后候选词集合为: 其中: 表示电子档案中的第个候选词,表示电子档案的候选词总数;S13:将候选词作为词图模型的节点,并计算不同节点之间的位置距离,若两个节点之间的位置距离小于预设的窗口阈值,则两个节点之间存在边,否则不存在边,其中候选词与之间的位置距离为: 其中: 表示以自然常数为底的指数函数; 表示候选词与之间的位置距离,,且; 表示电子档案分句分词处理结果中候选词与之间的词语数目; 表示候选词在电子档案分句分词处理结果中的出现句数,,即候选词在第个句子出现;表示候选词在电子档案分句分词处理结果中的出现句数,;S14:将节点以及节点之间的边信息构成词图模型,则电子档案所构成的词图模型为: 其中: 表示电子档案所构成的词图模型,包括个候选词节点信息,以及候选词节点之间的边信息; ,表示不同候选词在词图模型之间的边信息;若小于预设的窗口阈值,,表示候选词与在词图模型中存在边,否则表示候选词与在词图模型中不存在边;所述S1步骤中根据词图模型计算电子档案中每个候选词的TFIDF特征和候选词位置特征,包括:根据所构建的词图模型计算得到电子档案中每个候选词的TFIDF特征和候选词位置特征,其中电子档案中第个候选词的TFIDF特征和候选词位置特征计算公式为:其中: 表示候选词在电子档案分句分词处理结果中出现的次数; 表示电子档案分句分词处理结果中的词语总数;n表示电子档案总份数; 表示存在候选词语的电子档案份数; 表示候选词的TFIDF特征; 表示候选词的候选词位置特征。
全文数据:
权利要求:
百度查询: 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。