买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于文档属性赋值实体权重的知识图谱优化方法及装置_北京长河数智科技有限责任公司;山西长河科技股份有限公司_202210924260.2 

申请/专利权人:北京长河数智科技有限责任公司;山西长河科技股份有限公司

申请日:2022-08-03

公开(公告)日:2022-09-27

公开(公告)号:CN114969385B

主分类号:G06F16/36

分类号:G06F16/36;G06F16/35;G06F40/216;G06F40/289;G06F40/295

优先权:

专利状态码:有效-授权

法律状态:2022.09.27#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要:本发明涉及知识图谱技术领域,揭露了一种基于文档属性赋值实体权重的知识图谱优化方法,包括:根据事务词条集提取目标词条集,根据目标语句集,提取候选三元组,判断关系词条相似度是否大于关系相似阈值,若大于则存入原始关系库及原始实体库,若不大于,则判断实体词条的相似度是否大于实体相似阈值,若大于,则将候选三元组存入原始关系库及原始实体库,若不大于,则返回提取候选三元组,对初始关系库及初始实体库优化,得到目标关系库及目标实体库。本发明还提出一种基于文档属性赋值实体权重的知识图谱优化装置、电子设备以及计算机可读存储介质。本发明可以解决知识图谱存在数据更新不及时,数据滞后严重的问题。

主权项:1.一种基于文档属性赋值实体权重的知识图谱优化方法,其特征在于,所述方法包括:获取原始文档,根据所述原始文档中的词语特征,对所述原始文档进行文档领域分类,得到领域文本;识别所述领域文本对应的原始实体库及原始关系库,根据所述原始实体库及原始关系库中的原始实体词条及原始关系词条,在所述领域文本内提取文本语句;对所述文本语句进行分词处理,得到事务词条集,根据所述事务词条集中每个词条的支持度及置信度,在所述事务词条集中提取目标词条集;在所述领域文本内提取含有所述目标词条集中词条的语句,得到目标语句集;根据所述目标语句集中语句的动词,提取所述目标语句集中每条语句的候选三元组;判断所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度是否大于预设的关系相似阈值;若所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度大于相似阈值,则将所述候选三元组存入所述原始关系库及原始实体库,得到初始关系库及初始实体库;若所述候选三元组中的动词与所述原始关系库中任一原始关系词条的相似度不大于相似阈值,则判断所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度是否大于预设的实体相似阈值;若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度大于所述实体相似阈值,则将所述候选三元组存入所述原始关系库及原始实体库,得到初始关系库及初始实体库;若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度不大于所述实体相似阈值,则返回上述根据所述目标语句集中语句的动词,提取所述目标语句集中每条语句的候选三元组的步骤;计算所述实体词条的实体权重值,根据所述实体权重值对所述初始关系库及初始实体库进行优化,得到目标关系库及目标实体库。

全文数据:

权利要求:

百度查询: 北京长河数智科技有限责任公司;山西长河科技股份有限公司 基于文档属性赋值实体权重的知识图谱优化方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。