【发明授权】一种基于大语言模型的问答数据构建方法及装置_之江实验室_202410076463.X

导航：龙图腾网> 最新专利技术> 一种基于大语言模型的问答数据构建方法及装置_之江实验室_202410076463.X

申请/专利权人：之江实验室

申请日：2024-01-18

公开（公告）日：2024-04-26

公开（公告）号：CN117591661B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/36;G06F40/211;G06F40/30;G06N3/09;G06N3/0895

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要：本说明书公开了一种基于大语言模型的问答数据构建方法及装置，可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材，而后，可以根据文本素材，对基础三元组进行补充，得到三元组集合；针对三元组集合中的每个三元组，可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落，以得到多源知识数据。而后，可以根据多源知识数据，生成问答数据，可以对生成的问答数据进行标注，从而通过半监督的方式训练识别模型，以通过识别模型从问答数据中筛选出有效的问答数据，筛选出的有效的问答数据可以用于对大语言模型进行训练或微调，从而本方法能够提到生成问答数据的效率和有效性。

主权项：1.一种基于大语言模型的问答数据构建方法，其特征在于，包括：从预设的知识图谱中提取出基础三元组，以及从预设文档库中提取出文本素材，其中，三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合，所述文本素材中包含若干文本段落；根据所述文本素材，对所述基础三元组进行补充，得到三元组集合；针对所述三元组集合中的每个三元组，确定该三元组的关联三元组以及从所述文本素材中确定出该三元组的关联文本段落，并将所述三元组集合中的每个三元组，每个三元组的关联三元组和每个三元组的关联文本段落，作为多源知识数据；确定预设的题型，根据每个三元组，每个三元组的关联三元组和关联文本段落，对预设的题型进行填充，得到问答数据，其中，所述预设的题型包括：自由文本题型、选择型题型、判断型题型和截取型题型；选取出若干问答数据，并根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，通过所述训练样本对预设的识别模型进行训练，并通过训练后的识别模型继续对未标注的问答数据进行标注，以得到新的训练样本，以及通过新的训练样本继续对所述识别模型进行训练，直到所述识别模型收敛，以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据，筛选出的有效的问答数据用于对大语言模型进行训练。

全文数据：

权利要求：

百度查询：之江实验室一种基于大语言模型的问答数据构建方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

下一篇：面向建筑工地具体作业场景的施工适宜度气象预报方法_广东省气象服务中心(广东气象影视宣传中心)_202311186968.3

相关技术

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

面向建筑工地具体作业场景的施工适宜度气象预报方法_广东省气象服务中心(广东气象影视宣传中心)_202311186968.3

一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

一种针织设备用高速烘干机_海阳市清鸿制衣有限公司_202410304172.1

一种多功能模块化农村生活污水处理设备及处理方法_江苏大学_202211232661.8

一种乘用车极限强度冲击试验平台辅助装置_中汽研汽车试验场股份有限公司_201911236112.6

一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

基于数字镜像的变电站自动化设备状态诊断方法和系统_北京四方继保工程技术有限公司_202210022507.1

一种富氦气藏区带的评价方法、装置、设备及介质_中国石油天然气股份有限公司_202311208279.8

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

龙图腾网&IPTOP

【发明授权】一种基于大语言模型的问答数据构建方法及装置_之江实验室_202410076463.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务