申请/专利权人:中国人民解放军总医院
申请日:2023-03-14
公开(公告)日:2024-05-03
公开(公告)号:CN116306925B
主分类号:G06N5/02
分类号:G06N5/02;G06N5/025;G06F40/295;G06F16/36;G16H50/70
优先权:
专利状态码:有效-授权
法律状态:2024.05.03#授权;2023.07.11#实质审查的生效;2023.06.23#公开
摘要:本发明公开了一种生成端到端实体链接方法和系统,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体;将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称;基于n‑gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。本发明缓解了现有模型中两阶段任务带来的误差损失。
主权项:1.一种生成端到端实体链接方法,其特征在于,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
全文数据:
权利要求:
百度查询: 中国人民解放军总医院 一种生成端到端实体链接方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。