买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于XGBoost算法的生存分析方法_大连海事大学_202110560207.4 

申请/专利权人:大连海事大学

申请日:2021-05-21

公开(公告)日:2024-04-16

公开(公告)号:CN113284612B

主分类号:G16H50/20

分类号:G16H50/20;G06N5/01

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.09.07#实质审查的生效;2021.08.20#公开

摘要:本发明公开了一种基于XGBoost算法的生存分析方法,通过在原有的XGBoost方法中优化了目标函数,使用带有惩罚项的Cox回归作为新的学习目标。根据生存数据定制一个特定的损失函数,推导出损失函数的一阶和二阶梯度。并采用带有L1惩罚项的Cox偏似然估计的Breslow近似,导出了梯度的简化数学表达式。根据此表达式通过决策树算法优化个体危险比率预测值,从而实现了基于基因表达数据的疾病患者存活率的准确预测以及其对高维数据的解释性和适应性,有效预测患者的生存状态。

主权项:1.一种基于XGBoost算法的生存分析方法,其特征在于,包括:输入生存分析数据;所述生存分析数据,包括:患者个体样本、基因特征、个体危险比率预测值及XGBoost算法参数;所述患者个体样本,包括:训练样本和测试样本;所述训练样本和测试样本中均包括患者的生存时间及生存状态;用{xi,ti,δi|i=1,…,n},xi∈R表示所述患者个体样本;其中,xi为患者基因表达数据,ti为患者生存时间,δi为患者的生存状态;δi=1表示感兴趣的事件发生,δi=0表示删失;初始化所述个体危险比率预测值;建立基于生存时间及生存状态的Cox模型,并根据所述生存时间及生存状态定义所述Cox模型的损失函数,通过所述损失函数在所述Cox模型中加入惩罚项;所述建立基于生存时间及生存状态的Cox模型,包括:建立危险率函数来获得被观察对象在t时刻的瞬时死亡率,所述危险率函数表示为: 式中,X表示基因特征,ht,X表示危险率函数,Δt表示时间间隔,PTt表示生存概率;假设个体风险与人群基线风险的比率是定常标量因子,Cox模型的函数表示为: 式中,β1,β2…,βm为自变量的偏回归系数,h0t为当X为0时的基准风险率ht,X;y=fx=βTX表示对数危险比,其中,β∈Rm为协变量的系数向量,m为基因特征数;cox模型通过最大化部分似然函数估计无关联生存数据的系数向量β,表示为: 式中,βTXi表示个体i的对数风险比率预测,β∈Rm是协变量的系数向量,qt表示在t时刻死亡的个体;当生存数据打结时,用布雷斯洛近似给出的部分似然函数为: 所述根据所述生存时间及生存状态定义所述Cox模型的损失函数,通过所述损失函数对所述Cox模型加入惩罚项,包括:根据式4得到的部分似然函数的布雷斯洛近似LΒ,用集合表示时刻t处于危险状态的个体的估计危险比的和,对LΒ两边取负对数,得到: 加入L1惩罚项并建立损失函数,表示为:Lp=lB-Pβ6式中,为L1惩罚,m为基因特征数,λ为惩罚项参数,β=β1,β2,…,βmT为基因表达数据在Cox回归中的相关系数;计算所述损失函数对所述个体危险比率预测值的一阶导数和二阶导数;根据所述一阶导数和二阶导数建立决策树,通过所述训练样本训练所述决策树来优化个体危险比率的预测精度及XGBoost算法参数,包括:最小化带有惩罚项的目标函数,在每次迭代中添加新函数ftx;并利用二阶近似优化个体危险比率的预测精度及XGBoost算法参数,表示为: 式13中,t表示迭代次数,gi和hi分别为损失函数的一阶和二阶导数,Ωft表示ftx的约束,和yi分别表示对个体样本i的预测值和真实值;式14中ε是步长;Lt表示目标函数;l为预先设定的计算预测精度的循环次数;利用训练后的所述决策树对所述测试样本计算得到多个预测精度值,选取所述预测精度值中的最优值代入带有惩罚项的Cox回归模型中,得到优化的个体危险比率预测值;再根据所述优化的个体危险比率预测值来预测个体样本的生存期。

全文数据:

权利要求:

百度查询: 大连海事大学 一种基于XGBoost算法的生存分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。