买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种私域数据的生成方法、装置、设备和存储介质_新华三技术有限公司_202311546225.2 

申请/专利权人:新华三技术有限公司

申请日:2023-11-20

公开(公告)日:2024-03-12

公开(公告)号:CN117252251B

主分类号:G06N3/09

分类号:G06N3/09;G06N7/02

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2024.01.05#实质审查的生效;2023.12.19#公开

摘要:本发明公开一种私域数据的生成方法、装置、设备和存储介质,该方法包括:获取API数据源,根据私域的API数据组合出若干条目,并根据若干条目和数据结构得到至少一个第一QA对,对至少一个第一QA对进行模糊化处理得到至少一个第二QA和映射关系表,对至少一个第二QA对进行深化拓展得到至少一个第三QA对;根据映射关系表对至少一个第三QA对进行清晰化处理得到至少一个第四QA对,并作为符合私域API的有监督微调SFT数据集传输至训练模型,以使利用SFT数据集训练出大语言模型。本方法随机生成大量覆盖多个业务范围的SFT用例,从而增加了QA对广度;并且通过对生成的第一QA对进行模糊化处理提高私域代码的安全性。

主权项:1.一种私域数据的生成方法,其特征在于,所述方法包括:获取应用程序编程接口API数据源,所述API数据源中包括私域的API数据以及用于描述所述API数据的数据结构;根据所述私域的API数据组合出若干条目,并根据所述若干条目和所述数据结构,得到至少一个第一QA对;按照预设规则,对所述至少一个第一QA对进行模糊化处理,得到至少一个第二QA对和映射关系表,所述映射关系表用于描述模糊化处理前后第一QA对与第二QA对之间的对应关系,所述模糊化处理包括:改变每个所述第一QA对的代码所在的条件空间、或者改变所述代码的函数风格、或者改变所述代码的函数参数;对所述至少一个第二QA对进行深化拓展,得到至少一个第三QA对,所述深化拓展包括:对模糊化生成的所述第二QA对做进一步演化,生成结构复杂、且具有多样化的所述第三QA对;根据所述映射关系表,对所述至少一个第三QA对进行清晰化处理,得到至少一个第四QA对,第四QA对为符合私域API的有监督微调SFT数据集;将所述至少一个第四QA对作为符合私域API的有监督微调SFT数据集传输至训练模型,以使所述训练模型利用所述SFT数据集训练出大语言模型;其中所述私域的API数据包括:第一API基础数据和第二API基础数据,第一API基础数据对应第一API集合,第二API基础数据对应第二API集合,每个API集合中包含一个或多个API子集;所述根据所述私域的API数据组合出若干条目,具体包括:将从所述第一API集合中选择出的一个或多个的API子集,与,从所述第二API集合中选择出的一个或多个的API子集进行组合,生成一个条目,所述条目具有被选出的所有API子集的功能。

全文数据:

权利要求:

百度查询: 新华三技术有限公司 一种私域数据的生成方法、装置、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。