申请/专利权人:湖南航天天麓新材料检测有限责任公司
申请日:2023-12-22
公开(公告)日:2024-03-22
公开(公告)号:CN117743579A
主分类号:G06F16/35
分类号:G06F16/35;G06F16/36;G06F18/214;G06F16/332
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.09#实质审查的生效;2024.03.22#公开
摘要:本申请涉及一种用于微调大语言模型的数据集构建方法、装置和设备。方法包括:根据检测语料数据和检测参数数据构建编制数据集;对编制数据集中与用户需求相关的数据进行分类得到若干语料列表,根据语料列表和检测语料数据得到示例数据集;将示例数据集输入预训练的大语言模型得到增强数据集;对检测语料数据与增强数据集中数据的问答样式进行分类得到若干样式列表;将每一样式列表与对应的语料列表进行关联得到每一样式列表对应的关联列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集;根据编制数据集、示例数据集、增强数据集和融合数据集,得到微调数据集。采用本方法能够为大语言模型在检测行业的快速落地提供数据支持。
主权项:1.一种用于微调大语言模型的数据集构建方法,其特征在于,所述方法包括:获取检测语料数据和检测参数数据,根据经预处理后的所述检测语料数据和所述检测参数数据构建编制数据集;所述检测语料数据包括用户与检测机构之间的交流询问内容;所述检测参数数据包括与用户需求相关的检测行业标准、检测项目、检测机构信息和检测设备信息;对所述编制数据集中与用户需求相关的数据进行分类,得到若干语料列表,根据所述语料列表和所述检测语料数据得到对应的示例数据,根据所述示例数据构建示例数据集;将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到增强数据集;对所述检测语料数据与所述增强数据集中数据的问答样式进行分类,得到若干样式列表;根据样式列表中包含的与用户需求相关的数据,将每一样式列表与对应的语料列表进行关联,得到每一样式列表对应的关联列表,遍历每一样式列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集;根据所述编制数据集、所述示例数据集、所述增强数据集和所述融合数据集,得到微调数据集。
全文数据:
权利要求:
百度查询: 湖南航天天麓新材料检测有限责任公司 用于微调大语言模型的数据集构建方法、装置和设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。