买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于SHAP特征聚类技术的脓毒症分型方法及系统_北京和兴创联健康科技有限公司_202311348170.4 

申请/专利权人:北京和兴创联健康科技有限公司

申请日:2023-10-17

公开(公告)日:2024-04-02

公开(公告)号:CN117235555B

主分类号:G06F18/23

分类号:G06F18/23;G06N20/00;G16H50/50

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.01.02#实质审查的生效;2023.12.15#公开

摘要:本发明公开了一种基于SHAP特征聚类技术的脓毒症分型方法及系统,包括步骤S1:采集样本的特征数据;步骤S2:基于脓毒症预测模型获取每个样本的预测结果,计算每个预测结果下、样本中各个特征数据的SHAP值;步骤S3:确定目标聚类数量;步骤S4:将位于同一第二数据组中样本特征数据的SHAP值输入至聚类模型中,获得每个第二数据组的第一聚类结果,对第一聚类结果中的样本再次进行聚类,获得第二聚类结果,同一第二聚类结果中的样本包括相同的脓毒症类型;步骤S5:基于第一聚类结果和第二聚类结果生成第一贡献度和第二贡献图。本发明所采用的聚类方式消除了不同特征数据之间数量级的差异,从而获得更好的分型结果,便于后续的分析。

主权项:1.一种基于SHAP特征聚类技术的脓毒症分型方法,其特征在于,包括:步骤S1:获取监测时长,所述监测时长的范围为患者进入ICU的时间点至患者离开ICU或死亡的时间点,在所述监测时长内每两小时收集一次数据,定义在所述监测时长内收集的时间点为基础时间点,将相同所述基础时间点的特征数据划分至同一第一数据组内,对每个所述第一数据组进行一次处理和二次处理,获得第二数据组,所述一次处理用于过滤所述特征数据,所述二次处理用于补偿缺失的所述特征数据;步骤S2:基于所述基础时间点为样本标注已患病标签和未患病标签,建立脓毒症预测模型,将包括所述未患病标签所述样本的所述特征数据输入至脓毒症预测模型中,获得每个所述样本的预测结果,所述预测结果包括脓毒症类型和发病概率,计算每个所述预测结果下、所述样本中各个所述特征数据的SHAP值;步骤S3:基于第一法则、第二法则和第三法则获取第一聚类数量、第二聚类数量和第三聚类数量,判断三种法则生成的聚类数量是否相同,是的情况下,直接将生成的聚类数量设置为目标聚类数量,否的情况下,基于投票法确定所述目标聚类数量;步骤S4:建立聚类模型,将所述目标聚类数量设置为所述聚类模型的输出目标,设置聚类时刻,基于所述聚类时刻对所述第二数据组进行筛选,并将筛选后位于同一所述第二数据组中所述样本所述特征数据的SHAP值输入至所述聚类模型中,获得每个所述第二数据组的第一聚类结果,对所述第一聚类结果中的所述样本再次进行聚类,获得第二聚类结果,同一所述第二聚类结果中的所述样本包括相同的脓毒症类型;步骤S5:基于所述第一聚类结果和所述第二聚类结果生成第一贡献图和第二贡献图;所述步骤S5中,基于以下步骤生成所述第一贡献图:将所述第一聚类结果依次定义为表型1~N,生成第一表格,所述第一表格包括表型1~N的第一频率、第二频率、第三频率和第四频率,所述第一频率为脓毒症类型中各个表型的出现频率,所述第二频率为同一表型在所有脓毒症类型中的合计出现频率,所述第三频率为不同表型在相同脓毒症类型下的合计出现频率,所述第四频率为所有表型的合计出现频率,设置第一阈值,将所述第二频率小于所述第一阈值的表型从所述第一表格中删除,获得第二表格;基于第一公式计算表型n的统计值statn,所述第一公式为:其中,Num1n,p为表型n在第p个脓毒症类型下的所述第一频率,Num2n为表型n的所述第二频率,Num3p为第p个脓毒症类型下的所述第三频率,Num4为所述第四频率,1≤n≤N,P为脓毒症类型的总数量,基于所述统计值由大至小对所述第二表格中的表型重新进行排序,获得第三表格,设置第二阈值,将所述第三表格中位置序号小于所述第二阈值的表型删除,获得第四表格;基于第二公式计算所述第四表格中,表型n与第p个脓毒症类型的匹配值fitn,p,所述第二公式为:其中,δ和ε分别为预设的第一数值和第二数值,基于所述匹配值生成与每个表型对应的所述第一贡献图,所述第一贡献图用于显示表型与脓毒症类型的所述匹配值;所述步骤S5中,基于以下步骤生成所述第二贡献图:计算同一所述第二聚类结果中、每个所述特征数据的平均值,以及所述样本发病概率的平均值,基于第三公式计算第i个所述特征数据的代表比率Avei,所述第三公式为:其中,xi为第i个所述特征数据的平均值,I为所述特征数据的数量,η为所述样本发病概率的平均值,以时间为横轴、发病概率为纵轴建立坐标系,基于所述样本发病概率的平均值以及所述特征数据的所述代表比率绘制生成所述第二贡献图。

全文数据:

权利要求:

百度查询: 北京和兴创联健康科技有限公司 一种基于SHAP特征聚类技术的脓毒症分型方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。