买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统_大连海事大学_201911343021.2 

申请/专利权人:大连海事大学

申请日:2019-12-24

公开(公告)日:2024-03-22

公开(公告)号:CN111429970B

主分类号:G16B30/00

分类号:G16B30/00;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2020.08.11#实质审查的生效;2020.07.17#公开

摘要:本发明实施例公开了一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统,所述方法包括:基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理;基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数;基于所述模型进行特征重要性排序以选择出前k个SNP位点;基于多基因风险评分方法,依次对每一样本数据进行评分。本发明为用户提供客观的理论数据处理方法,以在未来的个性化医疗和精准医学进行辅助性应用。

主权项:1.一种基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法,其特征在于,包括如下步骤:S1、基于给定的SNP位点个数并对SNP位点的碱基序列进行离散化数值处理;S2、基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数;S3、基于所述模型进行特征重要性排序以选择出前k个SNP位点;S4、基于多基因风险评分方法,依次对每一样本数据进行评分以获取对应的评分结果;所述S2中基于极端梯度提升方法,创建特征重要性排序模型并搜索出所述模型对应的最佳性能指标参数包括:S21、设定样本数据的训练数据中每一行样本表示为xi,i=1,2,···,n1,对应的每一行样本标签表示为yi,i=1,2,···,n1,同时每一行样本的预测标签表示为n1为训练数据的对应样本数量,则建立训练数据对应的特征重要性排序模型,模型公式如下述公式1-1所示: 其中,表示每一步生成回归树的模型,qxi表示样本i落在叶节点上的索引,表示样本i落在叶节点上的取值,Fxi表示生成T个弱分类器总预测模型;S22、给定目标函数,以获取特征重要性排序模型中每棵回归树的结构和取值,所述目标函数对应的函数公式如下述公式1-2所示 其中,表示损失函数,Ωft表示ft对应的正则化项,针对不同类型的标签,所述损失函数对应的损失函数模型分别为若连续值对应的标签,则所述损失函数模型为平方损失函数,对应的公式为下述公式1-3 若离散值对应的标签,则所述损失函数模型为逻辑损失函数,对应的公式为下述公式1-4 上述公式1-3与1-4对应的正则化项,其对应的公式为下述公式1-5 其中,J和wj分别表示当前建立回归树的叶节点个数和取值,g和λ分别表示用于调节回归树的结构和取值的超参数;S23、确定所述目标函数的最小化形式,即利用前向分步的方式展开目标函数后,使用泰勒展开式进行二阶近似展开以获取所述目标函数的最小化形式;其中,利用前向分步的方式展开所述目标函数,所获得的公式如下式1-6 用泰勒展开式进行二阶近似展开,得到所述目标函数的二阶近似展开形式如下式1-7 其中,ftxi表示第t棵回归树的预测值,表示前t-1棵回归树的预测值;移除公式1-7中的常数项同时定义Ij={i|qxi=j}作为回归树叶节点j的样本数据集,并将正则化项对应的公式1-5带入到所述公式1-7中,将目标函数重新改写成公式1-8的形式,即 S24、对所述目标函数对应的公式1-8的形式进行最小化计算得到最优叶节点j的取值wj*并确定出当前结构最小目标函数;最优叶节点j的取值wj*对应的计算公式为下述公式1-9 当前结构最小目标函数对应的公式为下述公式1-10 S25、确定模型对应的最佳回归树的结构并搜索出所述模型对应的最佳性能指标参数。

全文数据:

权利要求:

百度查询: 大连海事大学 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。