买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于模糊匹配构建知识图谱的方法_中科聚信信息技术(北京)有限公司_202310778214.0 

申请/专利权人:中科聚信信息技术(北京)有限公司

申请日:2023-06-29

公开(公告)日:2024-04-02

公开(公告)号:CN116501897B

主分类号:G06F16/36

分类号:G06F16/36;G06F18/22;G06N5/022

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2023.08.15#实质审查的生效;2023.07.28#公开

摘要:本发明公开了一种基于模糊匹配构建知识图谱的方法,包括:对节点的实体信息进行数据标准化预处理,得到待匹配节点;将待匹配节点按照团成立顺序遍历已有的各团首节点进行模糊匹配,一旦相似度大于阈值则加入该团,否则将该节点作为首节点创建新团;基于分团结果进行知识图谱构建。本发明能够进行节点的标准化和相似度计算,进而提高业务上的准确性和效率,在实际金融行业应用中有较高价值。

主权项:1.基于模糊匹配构建知识图谱的方法,其特征在于,包括:对节点的实体信息进行数据标准化预处理,得到待匹配节点;数据标准化预处理包括清洗成规范字符串、切分成段分词、各段信息补全、各段再次清洗、纠错;将待匹配节点按照团成立顺序遍历已有的各团首节点进行模糊匹配,一旦相似度大于阈值则加入该团,否则将该节点作为首节点创建新团;基于分团结果进行知识图谱构建;节点的实体信息为地址,对地址信息进行分词时,将地址信息切分成行政区段、详细地址段,所述行政区段包括省段、市段、区县段、街道乡镇段各层级,所述详细地址段包括道路段、社区村段和楼栋组段各层级,计算两个节点的相似度时,包括:步骤1:若两个字符串相同则两个节点的相似度为1,否则进入步骤2;步骤2:若所有层级均为至少一个为空则两个节点的相似度为0,否则进入步骤3;步骤3:若行政区段相似度为0则两个节点的相似度为0,否则进入步骤4;步骤4:两个节点的相似度由行政区段、道路段、社区村段和楼栋组段的相似度加权得到;计算两个节点的行政区段相似度时,若任一个节点的行政区段与数据库匹配失败且两个节点的行政区段的所有层级都非空,则按照编辑距离算法计算两个节点的行政区段相似度,若两个节点的行政区段的所有层级相同,则两个节点的行政区段相似度为1,否则两个节点的行政区段相似度为0;计算两个节点的详细地址段相似度时,对于同一层级至少一个为空时,则该层级的相似度为0,对于同一非空层级,分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串,然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离,其中的最大值作为该层级的相似度;若数据来源为空,则行政区段、道路段、社区村段和楼栋组段的权重值为预设值,若数据来源不为空,则获取对应数据库的权重值,并对行政区段、道路段、社区村段和楼栋组段的权重值进行校正,校正方式为:若道路段至少一个为空,社区村段都非空,道路段对应的权重值赋值给社区村段;若道路段都非空,社区村段至少一个为空,社区村段对应的权重值赋值给道路段;若市段相等,且道路段都非空,社区村段都非空,道路段对应的权重值赋值给社区村段;若楼栋组段都为空:社区村段都非空则将楼栋组段对应的权重值赋值给社区村段,社区村段至少一个为空且道路段都非空则将楼栋组段对应的权重值赋值给道路段,社区村段至少一个为空且道路段至少一个为空则将楼栋组段对应的权重值赋值给行政区段;节点的实体信息为公司名称,对公司名称信息进行分词时,将公司名称信息切分成行政区段、详细名称段,所述行政区段包括国段、省段、市段、区段各层级,所述详细名称段包括字号段、行业段、组织形式段、分支机构段各层级,计算两个节点的相似度时,包括:步骤I:若两个字符串相同则两个节点的相似度为1,否则进入步骤II;步骤II:两个节点的相似度由行政区段、字号段、行业段、组织形式段、分支机构段的相似度加权得到;计算两个节点的行政区段相似度时,若任一个节点的行政区段与数据库匹配失败,则按照编辑距离算法计算两个节点的行政区段相似度,若行政区段的所有层级相同,则行政区段相似度为1,若行政区段的层级存在包含关系,则行政区段相似度为0.9,否则为0;计算两个节点的详细名称段相似度时,对于同一层级至少一个为空时,则该层级的相似度为0,对于同一非空层级,分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串,然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离,其中的最大值作为该层级的相似度;若数据来源为空,则行政区段、字号段、行业段、组织形式段、分支机构段的权重值为预设值,若数据来源不为空,则获取对应数据库的权重值,并对行政区段、字号段、行业段、组织形式段、分支机构段的权重值进行校正,校正方式为:若行业段至少一个为空,行业段对应的权重值赋值给字号段;若组织形式段至少一个为空,组织形式段对应的权重值赋值给字号段;若分支机构段都为空,分支机构段对应的权重值赋值给字号段;若字号段至少一个为空,字号段对应的权重值赋值给行业段。

全文数据:

权利要求:

百度查询: 中科聚信信息技术(北京)有限公司 基于模糊匹配构建知识图谱的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。