买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于大语言模型知识蒸馏的知识图谱构建方法及装置_人民网股份有限公司_202311520660.8 

申请/专利权人:人民网股份有限公司

申请日:2023-11-15

公开(公告)日:2024-04-02

公开(公告)号:CN117313851B

主分类号:G06N5/022

分类号:G06N5/022

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.01.16#实质审查的生效;2023.12.29#公开

摘要:本发明实施例公开了一种基于大语言模型知识蒸馏的知识图谱构建方法及装置,方法包括:获取元数据;元数据包括知识图谱的关系描述信息以及与关系描述信息对应的多个实体对;将元数据的关系描述信息与实体对进行拼装,得到拼装语句,对拼装语句进行同义改写,提取改写后的拼装语句,得到关系描述集合;关系描述集合包含改写后的拼装语句中的多个关系描述信息;根据关系描述集合以及实体对构建提示词,根据提示词,利用知识蒸馏模块得到候选实体对集合;根据候选实体对集合以及元数据的关系描述信息生成知识图谱。基于元数据快速地从大语言模型中提取、整理和构建候选实体对,实现对知识图谱的更新和扩充,从而高效、可靠、低成本构建知识图谱。

主权项:1.一种基于大语言模型知识蒸馏的知识图谱构建方法,其特征在于,方法包括:获取元数据;所述元数据包括知识图谱的关系描述信息以及与所述关系描述信息对应的多个实体对;将所述元数据的关系描述信息与实体对进行拼装,得到拼装语句,对所述拼装语句进行同义改写,提取改写后的拼装语句,得到关系描述集合;所述关系描述集合包含改写后的拼装语句中的多个关系描述信息;根据所述关系描述集合以及所述实体对构建提示词,根据所述提示词,利用知识蒸馏模块得到候选实体对集合;根据所述候选实体对集合以及所述元数据的关系描述信息生成知识图谱;其中,所述利用知识蒸馏模块得到候选实体对集合进一步包括:利用生成式大语言模型基于少量标注数据方式得到的候选实体对,利用自编码语言模型计算得到所述候选实体对的置信度分值;所述置信度分值根据关系描述集合中关系描述信息的个数、关系描述信息的权重确定;判断预设有序列表已存储的候选实体对的数量是否小于预设数量阈值;若是,将所述候选实体对按照所述置信度分值大小存储至预设有序列表;所述预设有序列表按照置信度分值从小到大存储;若否,获取预设有序列表中最小置信度分值作为置信度阈值;判断所述候选实体对的置信度分值是否大于所述置信度阈值;若是,删除最小置信度分值的候选实体对,将所述候选实体对按照所述置信度分值大小存储至预设有序列表,并重复执行利用知识蒸馏模块基于少量标注数据方式得到的候选实体对的步骤;若否,更新未存储次数;判断所述未存储次数是否大于预设未存储阈值;若是,停止获取新的候选实体对;若否,重复执行利用知识蒸馏模块基于少量标注数据方式得到的候选实体对的步骤。

全文数据:

权利要求:

百度查询: 人民网股份有限公司 基于大语言模型知识蒸馏的知识图谱构建方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。