买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种知识库的知识诊断方法及装置_深圳须弥云图空间科技有限公司_202311168291.0 

申请/专利权人:深圳须弥云图空间科技有限公司

申请日:2023-09-12

公开(公告)日:2024-04-16

公开(公告)号:CN116910259B

主分类号:G06F16/35

分类号:G06F16/35;G06N5/022

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2023.11.07#实质审查的生效;2023.10.20#公开

摘要:本申请提供了一种知识库的知识诊断方法及装置。该方法包括:确定知识库中与知识点相关联的至少2个问题文本;基于目标语言表征模型,确定聚类算法的距离参数;使用确定距离参数后的聚类算法对知识点相关联的各问题文本进行聚类计算;以从问题文本中确定异常文本;该异常文本与所有相邻的问题文本的距离均大于距离参数。本申请能够以一种高效率的,完备的,与具体业务松耦合的知识诊断方法,将检测范围约束在单条知识之内,通过利用目标语言表征模型确定聚类算法得距离参数,省去人工调参的繁琐步骤,采用此方法可以提高对知识库的筛选效率,降低难度,从而显著提升数据库的数据质量。

主权项:1.一种知识库的知识诊断方法,其特征在于,所述方法包括:确定知识库中与知识点相关联的至少2个问题文本;基于目标语言表征模型,确定聚类算法的距离参数,所述聚类算法为密度聚类DBSCAN算法,所述距离参数为所述DBSCAN算法的扫描半径;使用确定所述距离参数后的聚类算法对所述知识点相关联的各所述问题文本进行聚类计算;以从所述问题文本中确定异常文本;所述异常文本与所有相邻的问题文本的距离均大于所述距离参数;还包括:根据所述知识库中的知识数据对初始语言表征模型进行分类任务训练以输出分类损失结果;根据所述知识库中的知识数据对初始语言表征模型进行相似任务训练以输出相似损失结果;将所述分类损失结果和相似损失结果叠加以确定总损失结果;根据所述总损失结果反向调整初始语言表征模型的模型参数并迭代对所述初始语言表征模型进行训练;使用测试集对所述初始语言表征模型进行测试并输出第一测试结果;当所述第一测试结果满足预设要求,则确定最后一次测试的初始语言表征模型为目标语言表征模型;所述基于目标语言表征模型,确定聚类算法的距离参数包括:确定所述测试集中每一条样本的标注信息;根据测试集对所述目标语言表征模型进行测试得到的第二测试结果和所述标注信息确定所述距离参数;具体包括:计算所述测试集中所有样本的所述第二测试结果和所对应的所述标注信息的均方误差;根据所述均方误差确定所述距离参数;所述使用确定所述距离参数后的聚类算法对所述知识点相关联的各所述问题文本进行聚类计算;以从所述问题文本中确定异常文本;所述异常文本与所有相邻的问题文本的距离均大于所述距离参数,包括:利用所述聚类算法,确定各所述问题文本在所述距离参数之内是否存在临近文本;当任一所述问题文本在距离参数之内不存在所述临近文本,将所述问题文本确定为异常文本。

全文数据:

权利要求:

百度查询: 深圳须弥云图空间科技有限公司 一种知识库的知识诊断方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。