买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于融入知识图谱子图信息及实体信息的实体链接方法_中山大学附属第一医院;广州医药信息科技有限公司_202110951011.8 

申请/专利权人:中山大学附属第一医院;广州医药信息科技有限公司

申请日:2021-08-18

公开(公告)日:2022-07-05

公开(公告)号:CN113626613B

主分类号:G06F16/36

分类号:G06F16/36;G06F40/295;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2022.07.05#授权;2021.11.26#实质审查的生效;2021.11.09#公开

摘要:本发明涉及一种基于融入知识图谱子图信息及实体信息的实体链接方法,该方法包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出预测提及词;对预测提及词进行召回,得到更高准确率的目标提及词。根据目标提及词从知识库中得到提及词对应的所有候选实体;对每个候选实体,检索它的知识图谱子图信息;将知识图谱子图信息融入到候选实体中得到候选实体文本,并在问句文本及候选实体文本中引入实体边界标签,构建实体消歧数据集;喂入训练好的实体消歧模型,池化得到提及词对应的知识库实体,完成实体链接。本发明能有效提高提及词识别的召回率,提高候选实体的排序准确率并减少错误传递,有效解决推理及在训练集中的未见实体情况。

主权项:1.一种基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出问句文本中的预测提及词;对预测提及词召回,根据召回算法得到目标提及词,根据知识库自带的映射文件,得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息;将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集;将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接;训练提及识别模型的方法包括:构建提及识别预训练模型;获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型;所述预训练模型为BERT模型加入CRF架构的基础模型;所述训练数据中的文本进行标签的方法为:获取训练数据中的文本的句子;对所述句子中的每一个中文字进行标注;其中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词;所述提及词召回的方法,包括:获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。

全文数据:

权利要求:

百度查询: 中山大学附属第一医院;广州医药信息科技有限公司 基于融入知识图谱子图信息及实体信息的实体链接方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。