申请/专利权人:浙江大学医学院附属儿童医院
申请日:2023-12-08
公开(公告)日:2024-04-09
公开(公告)号:CN117854588A
主分类号:G16B20/30
分类号:G16B20/30;G16B30/00;G16B40/00;G06F18/2431;G06N20/00;G06F18/214;G16H50/70;G16H50/30
优先权:
专利状态码:在审-公开
法律状态:2024.04.09#公开
摘要:本发明公开了早发性结直肠癌预测模型的构建方法及应用,涉及结直肠癌症预测技术领域,其技术要点为:包括以下步骤:S1、数据获取;S2、数据预处理;S3、差异基因分析;S4、数据分割;S5、Boruta特征筛选;S6、随机森林建模;S7、模型验证。本发明成功挖掘了早发性结直肠癌患者与正常人群之间的重要差异基因,并利用随机森林的机器学习模型对结直肠癌转录组数据进行训练,从而建立了一种可以应用于临床的早发性结直肠癌基因预测模型。该预测方法将有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施。可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。
主权项:1.早发性结直肠癌预测模型的构建方法,其特征是:包括以下步骤:S1、数据获取:收集结肠腺癌和直肠癌的转录组表达矩阵以及临床数据;S2、数据预处理:根据临床数据,将小于等于50岁的肿瘤样本与全年龄阶段的正常组织样本进行组合,构建出一张新的表达矩阵;S3、差异基因分析:载入“DESeq2”R包进行差异基因分析;S4、数据分割:设置随机种子并将差异基因数据分割出20%样本作为独立测试集,剩余的80%样本作为训练集,数据用于后续Boruta特征筛选以及模型训练;S5、Boruta特征筛选:载入“Boruta”R包对差异基因进行重要特征筛选,得到重要基因特征数据;S6、随机森林模型建立和参数调整:将筛选出的重要特征基因在80%训练集样本中提取表达矩阵,使用五折交叉验证训练机器学习模型,并且调整参数获得最佳模型,即构建得早发性结直肠癌预测模型;S7、模型验证:将最佳模型作为最终输出结果,在20%测试集进行独立验证,测试模型性能。
全文数据:
权利要求:
百度查询: 浙江大学医学院附属儿童医院 早发性结直肠癌预测模型的构建方法及应用
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。