申请/专利权人:桂林电子科技大学
申请日:2021-11-08
公开(公告)日:2024-04-02
公开(公告)号:CN114036275B
主分类号:G06F16/332
分类号:G06F16/332;G06F16/36
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2022.03.01#实质审查的生效;2022.02.11#公开
摘要:本发明公开一种知识图谱嵌入多跳问答方法通过翻译模型的思想,将问题q嵌入的向量空间作为源序列翻译到实体嵌入的向量空间中,解决了问题q嵌入的向量空间与实体嵌入的向量空间不一致的问题;通过Tf‑Idf权重系数的加权计算,解决了问题q嵌入的词向量问题嵌入的词向量无法考虑数据中所有问题数据的全局信息的问题,使得答案的预测更具合理性;从而提升了基于知识图谱的多跳问答的准确率。
主权项:1.一种知识图谱嵌入多跳问答方法,其特征是,包括步骤如下:步骤1、将已知的知识图谱生成实体向量字典和关系向量字典;步骤2、先从已知的问答数据集中提取问题字段、答案字段和关系链字段;步骤3、先利用词频-逆向文本频率指数计算公式计算步骤2所得的各问题字段中每个词的词频-逆向文本频率指数;再将每个词的词频-逆向文本频率指数与所属问题中所有词的词频-逆向文本频率指数之和的比值作为这个词的权重系数;后将所有词的权重系数生成词权重系数张量;步骤4、通过步骤1所得的实体向量字典的键值匹配查询问答数据集,得到问答数据集中各问题字段所对应的头实体向量和尾实体向量;同时,通过步骤1所得的关系向量字典的键值匹配查询问答数据集,得到问答数据集中各关系链字段所对应的关系向量,并将所有关系向量进行拼接得到关系张量;步骤5、先从步骤2所得的各问题字段中分别提取问题字符串,并在每个问题字符串加上头尾标识符和填充标识符,得到处理后的问题字符串;再将所有处理后的问题字符串送入到预训练模型中进行训练,得到问题序列张量;步骤6、基于步骤5所得的所有处理后的问题字符串和步骤3的词权重系数张量,构建问题权重系数张量和问题掩码张量:在问题权重系数张量中,处理后的问题字符串中各词的权重系数通过查询词权重系数张量得到,处理后的问题字符串中头尾标识符和填充标识符的权重系数为0;在问题掩码张量中,处理后的问题字符串中各词的掩码为1,处理后的问题字符串中头尾标识符和填充标识符的掩码为0;步骤7、将步骤5所得的问题序列张量和步骤6所得的问题权重系数张量相乘得到问题序列权重张量;步骤8、将步骤4所得的关系张量、步骤6所得的问题掩码张量和步骤7所得的关系张量问题序列权重张量作为翻译模型的输入,得到与实体向量空间相近的问题张量;步骤9、先基于步骤4查询当前所提问题字段所对应的头实体向量;再将该头实体向量和步骤8所得的问题张量一并送入到嵌入模型中,得到该头实体向量所对应的尾实体向量;后基于步骤4查询该尾实体向量所对应的答案字段,以此作为当前所提问题的答案。
全文数据:
权利要求:
百度查询: 桂林电子科技大学 一种知识图谱嵌入多跳问答方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。