买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大语言模型的问答数据构建方法及装置_之江实验室_202410076463.X 

申请/专利权人:之江实验室

申请日:2024-01-18

公开(公告)日:2024-04-26

公开(公告)号:CN117591661B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/36;G06F40/211;G06F40/30;G06N3/09;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要:本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。

主权项:1.一种基于大语言模型的问答数据构建方法,其特征在于,包括:从预设的知识图谱中提取出基础三元组,以及从预设文档库中提取出文本素材,其中,三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合,所述文本素材中包含若干文本段落;根据所述文本素材,对所述基础三元组进行补充,得到三元组集合;针对所述三元组集合中的每个三元组,确定该三元组的关联三元组以及从所述文本素材中确定出该三元组的关联文本段落,并将所述三元组集合中的每个三元组,每个三元组的关联三元组和每个三元组的关联文本段落,作为多源知识数据;确定预设的题型,根据每个三元组,每个三元组的关联三元组和关联文本段落,对预设的题型进行填充,得到问答数据,其中,所述预设的题型包括:自由文本题型、选择型题型、判断型题型和截取型题型;选取出若干问答数据,并根据预设规则,对所述若干问答数据的有效性进行标注,得到训练样本,通过所述训练样本对预设的识别模型进行训练,并通过训练后的识别模型继续对未标注的问答数据进行标注,以得到新的训练样本,以及通过新的训练样本继续对所述识别模型进行训练,直到所述识别模型收敛,以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据,筛选出的有效的问答数据用于对大语言模型进行训练。

全文数据:

权利要求:

百度查询: 之江实验室 一种基于大语言模型的问答数据构建方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。