恭喜北京智谱华章科技有限公司陈志强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京智谱华章科技有限公司申请的专利一种知识图谱构建和动态扩展方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116502711B 。
龙图腾网通过国家知识产权局官网在2023-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310766016.2,技术领域涉及:G06N5/02;该发明授权一种知识图谱构建和动态扩展方法、装置、设备及介质是由陈志强;仇瑜;褚晓泉;高云鹏;刘德兵设计研发完成,并于2023-06-27向国家知识产权局提交的专利申请。
本一种知识图谱构建和动态扩展方法、装置、设备及介质在说明书摘要公布了:本申请涉及一种知识图谱构建和动态扩展方法、装置、设备及介质,属于知识图谱技术领域,解决了现有技术中对于知识图谱的构建和动态扩展中通用性差的问题。本申请技术方案主要包括:基于扩展前的第一知识图谱进行正三元组采样以及对应的负采样构建自监督数据集,使得知识图谱的扩展无需借用外部数据,同时通过改进负采样并采用不同的关系生成训练样本,一方面提高了微调后的模型对于预测任务结果的准确性,另一方面设置不同的关系内容可以提高图谱构建的通用性。此外,还通过改进的链接位置匹配算法中考虑到垂直路径和得分的关系以及第一知识图谱的不完整性,提高知识图谱扩展时的链接位置和链接方式的准确性和通用性。
本发明授权一种知识图谱构建和动态扩展方法、装置、设备及介质在权利要求书中公布了:1.一种科技术语知识图谱构建和动态扩展方法,其特征在于,包括以下步骤:步骤一、构建第一知识图谱,第一知识图谱可以是种子科技术语知识图谱也可以是经过扩展之后的科技术语知识图谱,种子科技术语知识图谱包括在构建每个科技术语知识图谱初期,相关领域专家构建的前三层科技术语知识图谱;步骤二、定义所述第一知识图谱的边为正三元组,根据所述第一知识图谱为所述正三元组进行负采样进而生成若干负三元组,以构建自监督数据集,包括以下步骤S21-S23:S21、选定所述第一知识图谱的正三元组,所述正三元组表示为(h,r,t),其中h表示头部术语,t表示尾部术语,r表示头部术语和尾部术语的关系;S22、在所述第一知识图谱中对所述正三元组进行负采样以生成K个所述负三元组,包括:获取所述头部术语在所述第一知识图谱中的垂直路径,定义所述垂直路径为包括从根节点到所述头部术语的节点序列;基于所述第一知识图谱排除所述垂直路径的部分节点术语进行采样以获得K个伪头部术语;根据所述关系r和所述尾部术语t分别与K个所述伪头部术语形成所述负三元组,所述负三元组表示为(,r,t);S23、重复步骤S21-S22以遍历至少部分所述正三元组,生成所述自监督数据集;步骤三、采用不同的关系内容对所述自监督数据集中的三元组进行数据转换以生成训练样本,所述训练样本的数据格式包括文本和标签,所述文本包括三元组的头部术语、关系内容和尾部术语,所述标签的值包括0或1,所述正三元组的标签值为1,负三元组的标签值为0;步骤四、将所述训练样本输入预训练模型进行三元组分类任务,以对所述预训练模型进行微调进而获得链接预测模型,根据生成所述训练样本采用的所述关系和所述三元组分类任务的预测概率确定预测关系;步骤五、获取待链接术语,将所述待链接术语和所述第一知识图谱输入所述链接预测模型,以预测所述待链接术语在所述第一知识图谱中的链接位置,包括以下步骤S51-56:S51、从设定的文献库中抽取待链接术语,在指定领域学术论文和专利语料库中抽取该领域关键字;S52、构建第一预测三元组(h,r,t),其中t表示所述待链接术语,r表示所述预测关系,h表示所述第一知识图谱的节点术语,对所述第一预测三元组进行所述数据转换以生成第一预测样本;S53、将所述第一预测样本输入所述链接预测模型以获得第一链接预测结果,若所述第一链接预测结果大于设定阈值则将所述节点术语作为备选链接位置;S54、重复步骤S52-S53以遍历所述第一知识图谱的至少部分所述节点术语,确定得分最高的所述备选链接位置作为所述链接位置,所述得分为所述备选链接位置的也被作为所述备选链接位置的直接父节点和间接父节点的个数;S55、构建第二预测三元组(h1,r,t1),其中t1表示链接位置子节点术语,r表示所述预测关系,h1表示所述待链接术语,对所述第二预测三元组进行所述数据转换以生成第二预测样本;S56、将所述第二预测样本输入所述链接预测模型以获得第二链接预测结果,若所述第二链接预测结果大于设定阈值则将所述待链接术语链接至所述链接位置和所述链接位置子节点之间,否则将所述待链接术语链接至所述链接位置之下;步骤六、根据所述待链接术语和所述链接位置完成对所述第一知识图谱的扩展,以获得扩展后的科技术语知识图谱,扩展后的科技术语知识图谱可以作为下一次动态扩展的第一知识图谱,重复步骤二到步骤六可以实现对科技术语知识图谱的动态迭代更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京智谱华章科技有限公司,其通讯地址为:100086 北京市海淀区中关村东路1号院9号楼10层整层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。