买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于特征贡献的多模型特征选择方法及系统_内蒙古卫数数据科技有限公司_202211357878.1 

申请/专利权人:内蒙古卫数数据科技有限公司

申请日:2022-11-01

公开(公告)日:2024-03-22

公开(公告)号:CN116226629B

主分类号:G06F18/211

分类号:G06F18/211;G06F18/214;G06F18/241;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2023.06.23#实质审查的生效;2023.06.06#公开

摘要:本发明公开了一种基于特征贡献的多模型特征选择方法及系统,包括:S1.提取血常规检验数据和生化检验数据,分别获取样本特征集;S2.基于k折交叉验证方法,获得测试集和训练集;S3.选择多种机器学习分类器模型进行样本集训练,并进行嵌入式特征选择,获得各个模型的平均准确率,输出特征重要性并赋权重值;S4.根据各个模型的平均准确率排序并赋值相应的权重,并与特征权重值相结合构建公式,计算不同模型下每个特征总权重并进行排序选取最优特征子集;S5.使用平均准确率高的模型训练最优特征子集,与S4结果进行对比,确定选取的最优特征子集效果;在保证预测的准确率的同时大大降低训练复杂度,更够高效快速的在高维数据集中寻找最优特征子集。

主权项:1.一种基于特征贡献的多模型特征选择方法,其特征在于,包括以下步骤:S1.分别提取患者和健康个体的血常规检验数据集和生化检验数据集,获取各数据维度的样本特征集;S2.基于k折交叉验证方法,将每个数据维度的样本特征集分为K份,分别获得测试集和训练集,k为任意大于1的常数;S3.选择多种机器学习分类器模型对每个数据维度的样本特征集进行样本集训练,并进行嵌入式特征选择,获得各个模型的平均准确率,输出各数据维度的样本特征集的特征重要性并赋权重值;S4.根据各个机器学习分类器模型的平均准确率排序并对各模型赋值相应的权重,将模型权重与特征权重值相结合构建公式,计算出在不同模型下每个特征总权重,并根据结果进行排序选取最优特征子集;S5.使用平均准确率最高的机器学习模型训练最优特征子集,与S4的结果进行对比,确定选取的最优特征子集效果优于或等同于特征全集效果;S3的具体内容包括:S31.对各数据维度的样本特征集分别使用五种机器学习分类器进行分类,并用测试集测试分类效果,得到敏感度TPR、特异度TNR和分类器的分类准确率ACC,并绘制PR和ROC曲线图得到AUC和AP值;S32.获取各数据维度的样本特征集在各个机器学习分类器模型的平均准确率;S33.对各个机器学习分类器模型建模时增加特征重要性对特征的贡献度进行解释,并对特征贡献度排序进行权重赋值σj,j为特征数;TPR、TNR和ACC具体为:TPR=TPTP+FNTNR=TNFP+TNACC=TP+TNTP+FP+FN+TN其中,TP表示分类器被识别为真正是患者的数量,FP表示分类器被误识别健康个体为患者的数量,FN表示分类器被识别患者为健康个体的数量,TN表示分类器被识别为真正是健康个体的数量;各分类器模型使用k折交叉验证训练得到TPR、TNR和ACC,其中敏感度TPR为识别出所有阳性样本占所有样本的比例,特异度TNR为识别出阴性样本占所有阴性样本的比例,ACC为分类器的分类准确率;以TPR为纵坐标,FPR为横坐标,绘制ROC曲线,以TPR为横坐标,精确率precision为纵坐标,绘制PR曲线,AUC值为ROC曲线下与坐标轴围成的面积,AP为PR曲线与X轴围成的图形面积;其中precision计算公式为:Precision=TPTP+FP;根据K折交叉验证的K次分类器的分类准确率获得各模型的平均准确率;S4的具体内容包括:S41.根据样本特征集的在不同模型下获取平均准确率进行排序设置模型权重βi,其中不同模型得到平均准确率顺序为RF、NN、SVM、LR、KNN,权重会跟随顺序的位置进行变化;S42.不同模型下每个特征总权重为: 其中,σij表示在第i个模型下第j个特征的权重值;S43.计算各数据维度的样本特征集下每个特征总权重的排序情况,并选择排序后的每个数据维度的样本特征集前一半的特征作为最优特征子集。

全文数据:

权利要求:

百度查询: 内蒙古卫数数据科技有限公司 一种基于特征贡献的多模型特征选择方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。