买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法_长春大学_202410118311.1 

申请/专利权人:长春大学

申请日:2024-01-29

公开(公告)日:2024-04-12

公开(公告)号:CN117649876B

主分类号:G16B20/20

分类号:G16B20/20;G06N3/006;G16B30/10;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2024.03.22#实质审查的生效;2024.03.05#公开

摘要:本发明一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,属于计算机科学技术与生物学的交叉领域;包括一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法。本发明提出了一种新的方法,用于挖掘数据中蕴含的疾病信息。全基因组关联分析是一种常用的探索复杂疾病的方法,提出高效且准确的检测方法一直是该领域的研究热点之一。本发明提出的方法基于灰狼优化算法实现,能够有效地在该数据上检测与复杂疾病相关的SNP组合。相比现有的其它算法,该方法具有更高的检测能力。本发明的研究成果将有助于进一步探索复杂疾病的致病机理,并有助于推进复杂疾病的解释、预防和治疗。

主权项:1.一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,包括以下步骤,且以下步骤顺次进行:步骤S1:载入全基因组关联分析GWAS数据到内存,使用基于BOOST算法的二进制存储方式;步骤S2:根据数据中的样本数计算最大上位性阶数和列联表最大长度,其中,最大上位性阶数为mo;步骤S3:初始化狼群初始化狼群中的狼,狼的数目由用户通过参数指定,每一只狼是一个长度为mo的整型向量,向量上的每一个数字代表GWAS数据中某一个SNP的索引下标,而每一只狼对应的就是一个SNP组合;步骤S4:更新变异率;变异率的计算方式如式3所示,它是0到最大变异率mr之间的一个值; 其中,vr是变异率,ns是狼群中所有SNP去重之后的数目,代表了狼群的复杂性,nw是狼群中狼的数目,mr是算法可以接受的最大的变异率,mr变量的值由用户通过参数指定;步骤S5:计算狼群中所有狼的K2、CE、Gini目标函数的值; 其中,X代表一个SNP组合,Y代表疾病状态,k2X,Y是SNP组合X与疾病状态Y之间的K2值,XG是SNP组合的组合基因型集合,YG代表疾病状态的集合,对于GWAS研究,通常样本的状态只有患病与正常,因此YG通常为{0,1},一般用0代表正常样本,1代表患病样本,mx是样本中组合基因型为x的样本的数目,mx,y是样本中组合基因型为x并且样本状态为y的样本数目;ceX,Y是X与Y之间的CE值,px,y是SNP组合基因型为x并且样本状态为y的样本的数目与样本总数的比例,px是SNP组合基因型为x的数目与样本总数的比例;giniX,Y是X与Y之间的Gini值,py|x是在所有SNP组合基因型为x的样本中,样本状态为y的样本的占比;步骤S6:根据K2、CE、Gini目标函数的值以及每匹狼的头狼次数选取三匹头狼,并更新头狼次数;步骤S7:在三匹头狼上检测与疾病相关的SNP组合在每一次狼群中选出三匹头狼之后,针对每一匹头狼,基于K2值反复移除头狼中的噪声SNP,直到不存在噪声,如果最后剩余的SNP的数目大于1,则算法找到了一个SNP组合,并且这个组合中的SNP彼此联系且与疾病状态相关;步骤S8:狼群向三匹头狼移动检测完三匹头狼之后,对于狼群中其它的狼,向三匹头狼移动,以达到狼群寻优的目的;步骤S9:移动狼群中的每一匹头狼之外的狼,从而完成了一次狼群的移动,而后判断灰狼算法的迭代次数,如果迭代次数到达最大迭代次数,则算法执行完成,将算法记录的结果输出到结果文件,如果未达到最大迭代次数,跳转到步骤S4,更新变异率,进入下一次循环。

全文数据:

权利要求:

百度查询: 长春大学 基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。