买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于智能模型训练的样本数据处理方法、系统及智能模型_深圳开源互联网安全技术有限公司_202410115570.9 

申请/专利权人:深圳开源互联网安全技术有限公司

申请日:2024-01-29

公开(公告)日:2024-05-03

公开(公告)号:CN117668237B

主分类号:G06F16/35

分类号:G06F16/35;G06F18/213;G06F11/36;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.03#授权;2024.03.26#实质审查的生效;2024.03.08#公开

摘要:本发明公开一种用于智能模型训练的样本数据处理方法、系统及智能模型,其中该方法包括:提取样本数据集中的特征词,以生成特征词库;基于特征词库扫描样本数据集,并提取出所有的第一特征语句;从每一第一特征语句中提取与特征词相匹配的关键变量,以获得特征变量库;基于特征变量库再次扫描样本数据集,并提取出所有的第二特征语句;对第一特征语句和第二特征语句取并集,以获得包括若干特征语句的特征语句集;生成与每一特征语句相对应的文本向量。本发明样本数据处理方法,能更准确地捕捉到与目标样本相关的关键信息,这种方式提高了数据处理的针对性和效率,从而提高智能模型预测的准确性和效率,并能提升智能模型的跨数据集的泛化性。

主权项:1.一种用于智能模型训练的样本数据处理方法,其特征在于,包括:根据标注信息提取样本数据集中的特征词,以生成包括若干所述特征词的特征词库;基于所述特征词库扫描所述样本数据集,并提取出所有的第一特征语句,每一所述第一特征语句包含有至少一个所述特征词;从每一所述第一特征语句中提取与所述特征词相匹配的关键变量,以获得包括所有所述关键变量的特征变量库;基于所述特征变量库再次扫描所述样本数据集,并提取出所有的第二特征语句,每一所述第二特征语句包含有至少一个所述关键变量;对所述第一特征语句和所述第二特征语句取并集,以获得包括若干特征语句的特征语句集;根据预设转换规则将所述特征语句集中的每一特征语句转换成数字序列,以生成与每一所述特征语句相对应的文本向量,所述文本向量用于导入所述智能模型,以对所述智能模型进行训练;所述特征词库的生成方式包括:根据标注信息对提取到的所述特征词进行分类统计;计算每一所述特征词与所述样本数据集中所有所述特征词的比值,以获得每一所述特征词在所述样本数据集中出现的第一频率PA;计算每一所述特征词与其所在类别中的所有所述特征词的比值,以获得每一所述特征词在其所在类别出现的第二频率PB;通过下述公式一计算每一所述特征词的特征权重W;W=|PA-PB|PA(公式一)将不同类别中相同的所述特征词的特征权重合并,以获得特征权重集;将所述特征权重集中数值较大的若干所述特征权重所对应的特征词加入所述特征词库;所述样本数据集为包含有已知类型漏洞的代码段,所述智能模型用于对应用程序中的漏洞进行检查;所述智能模型中设置有若干并行运行的子模型,若干所述子模型分别用于检测不同类型的代码漏洞,检测当将所述文本向量导入所述智能模型时,每一所述子模型分别独立对所述文本向量进行处理。

全文数据:

权利要求:

百度查询: 深圳开源互联网安全技术有限公司 用于智能模型训练的样本数据处理方法、系统及智能模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。