申请/专利权人:新华三技术有限公司
申请日:2023-11-20
公开(公告)日:2024-03-12
公开(公告)号:CN117252251B
主分类号:G06N3/09
分类号:G06N3/09;G06N7/02
优先权:
专利状态码:有效-授权
法律状态:2024.03.12#授权;2024.01.05#实质审查的生效;2023.12.19#公开
摘要:本发明公开一种私域数据的生成方法、装置、设备和存储介质,该方法包括:获取API数据源,根据私域的API数据组合出若干条目,并根据若干条目和数据结构得到至少一个第一QA对,对至少一个第一QA对进行模糊化处理得到至少一个第二QA和映射关系表,对至少一个第二QA对进行深化拓展得到至少一个第三QA对;根据映射关系表对至少一个第三QA对进行清晰化处理得到至少一个第四QA对,并作为符合私域API的有监督微调SFT数据集传输至训练模型,以使利用SFT数据集训练出大语言模型。本方法随机生成大量覆盖多个业务范围的SFT用例,从而增加了QA对广度;并且通过对生成的第一QA对进行模糊化处理提高私域代码的安全性。
主权项:1.一种私域数据的生成方法,其特征在于,所述方法包括:获取应用程序编程接口API数据源,所述API数据源中包括私域的API数据以及用于描述所述API数据的数据结构;根据所述私域的API数据组合出若干条目,并根据所述若干条目和所述数据结构,得到至少一个第一QA对;按照预设规则,对所述至少一个第一QA对进行模糊化处理,得到至少一个第二QA对和映射关系表,所述映射关系表用于描述模糊化处理前后第一QA对与第二QA对之间的对应关系,所述模糊化处理包括:改变每个所述第一QA对的代码所在的条件空间、或者改变所述代码的函数风格、或者改变所述代码的函数参数;对所述至少一个第二QA对进行深化拓展,得到至少一个第三QA对,所述深化拓展包括:对模糊化生成的所述第二QA对做进一步演化,生成结构复杂、且具有多样化的所述第三QA对;根据所述映射关系表,对所述至少一个第三QA对进行清晰化处理,得到至少一个第四QA对,第四QA对为符合私域API的有监督微调SFT数据集;将所述至少一个第四QA对作为符合私域API的有监督微调SFT数据集传输至训练模型,以使所述训练模型利用所述SFT数据集训练出大语言模型;其中所述私域的API数据包括:第一API基础数据和第二API基础数据,第一API基础数据对应第一API集合,第二API基础数据对应第二API集合,每个API集合中包含一个或多个API子集;所述根据所述私域的API数据组合出若干条目,具体包括:将从所述第一API集合中选择出的一个或多个的API子集,与,从所述第二API集合中选择出的一个或多个的API子集进行组合,生成一个条目,所述条目具有被选出的所有API子集的功能。
全文数据:
权利要求:
百度查询: 新华三技术有限公司 一种私域数据的生成方法、装置、设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。