买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种融合全局和局部拓扑结构的蛋白质复合体的检测方法_西安理工大学_202010767169.5 

申请/专利权人:西安理工大学

申请日:2020-08-03

公开(公告)日:2024-04-09

公开(公告)号:CN112071362B

主分类号:G16B20/00

分类号:G16B20/00;G16B40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2020.12.29#实质审查的生效;2020.12.11#公开

摘要:本发明公开了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,步骤包括:1获取多种用于实验测试的蛋白质互作网络数据集并对数据集进行预处理;2将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;3依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;4对步骤3所形成的模型加以多次训练和测试;5对最终输出的蛋白质复合体进行基因的富集分析,为每个蛋白质复合体标注出其代表的生物功能。本发明融合了蛋白质互作网络的全局和局部拓扑特性,使用改进之后的非负矩阵分解算法构建蛋白质复合体检测模型,具有良好的表现优势,能够更加准确高效的检测出蛋白质复合体。

主权项:1.一种融合全局和局部拓扑结构的蛋白质复合体的检测方法,其特征在于,按照以下步骤实施:步骤1、获取用于实验测试的蛋白质互作网络数据集,并对数据集进行预处理;步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A;步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进,构建一种蛋白质复合体检测模型;具体步骤为:步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z;步骤3.2中对非负矩阵分解算法加以改进,形成一种新的蛋白质复合体检测模型,其模型对应的目标函数为: 其中,代表求解矩阵的F2范数,A代表蛋白质互作网络对应的邻接矩阵,A∈Rn×n,R表示正实数域,n代表蛋白质网络中的总节点数,Z代表蛋白质间的自表示系数矩阵,Z∈Rn×n,W代表基矩阵,W∈Rn×k,k代表蛋白质互作网络的蛋白质复合体划分种类值,H代表划分矩阵,H∈Rn×k,S代表蛋白质间的Jaccard相似度矩阵,S∈Rn×n,D代表S对应的对角矩阵,L=D-S,是Jaccard相似度矩阵S对应的拉普拉斯矩阵,矩阵Z≥0,W≥0,H≥0,tr代表求解矩阵的迹,λ是用来平衡全局拓扑特性和局部拓扑特性的参数,T表示矩阵的转置;步骤3.3、对步骤3.2得到的目标函数进行求解,求解的具体过程为:首先对目标函数minJ求导,结果为: 再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为: 其中,表示两个矩阵之间的点乘;步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型;步骤4、对步骤3所形成的模型进行训练和测试,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估;步骤5、对最终输出的蛋白质复合体进行基因的富集分析,从而检测出待测蛋白质复合体所代表的生物功能;步骤5的具体步骤为:步骤5.1、将蛋白质互作网络数据作为最终模型的输入,然后对模型进行训练,输出对应的蛋白质复合体;步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值; 其中,t代表所有蛋白质拓扑模块中的蛋白质的数量,k表示一个蛋白质模块中的蛋白质数量,m是指某个基因本体术语所注解的蛋白质的数量,q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量,X表示一个随机变量,x表示X的一个具体取值;步骤5.3、对每个蛋白质复合体得到的p-value值进行排序,将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。

全文数据:

权利要求:

百度查询: 西安理工大学 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。