买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多网络拓扑结构的蛋白质功能预测方法_大连民族大学_202010497219.2 

申请/专利权人:大连民族大学

申请日:2020-06-04

公开(公告)日:2020-09-15

公开(公告)号:CN111667881A

主分类号:G16B20/00(20190101)

分类号:G16B20/00(20190101);G16B40/00(20190101)

优先权:

专利状态码:有效-授权

法律状态:2023.06.06#授权;2020.10.13#实质审查的生效;2020.09.15#公开

摘要:一种基于多网络拓扑结构的蛋白质功能预测方法,其属于生物信息应用的技术领域。该方法利用网络特有的拓扑结构,采用加权的方法使得网络结构更加明显,方便后续采集蛋白质网络特征节点。同时利用网络的拓扑结构信息整合多个网络,对每个蛋白质网络采用重启随机游走,获得每一个节点的一个分布,利用提取到的拓扑信息和数据的其他信息来推断节点的属性,从而捕获其与网络中其他所有节点的相关性。该方法轻松扩展到大量网络,分析每个网络中的扩散以表征每个节点的拓扑上下文。该方法解决了蛋白质功能预测中功能标签空间巨大的问题,提高了获取的压缩标签可解释性,通过本方法使得蛋白质预测功能更加完善和精确。

主权项:1.一种基于多网络拓扑结构的蛋白质功能预测方法,其特征在于,包括以下步骤:S1、获取蛋白质相互作用网络:从STRING数据库下载蛋白质-蛋白质相互作用网络的集合,即PPI数据合集;所述PPI数据集合包括六个异源网络;S2、转换蛋白质相互作用网络:采用加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权线图G=V,E,该分子相互作用网络共有n个节点,每一个节点都代表一个蛋白质;S3、对每个蛋白质网络采用重启随机游走,获得每一个节点的分布,捕获该节点在网络中与其他所有节点的相关性,得到n维的网络扩散向量;对每个网络采用重启随机游走,从初始节点i出发,通过该网络的邻接矩阵和转移概率矩阵共同作用,决定下一个节点j的走向;根据公式1确定从节点i为初始节点进行的重启随机游走 其中,Pc表示该节点重启的概率;A表示网络的转移概率矩阵,矩阵中的每一项Aij表示节点j到节点i的转移概率ai是一个n维向量,每一项代表着节点i出发到达节点j的概率;当j=i时,aij=1;当j≠i时,aij=0;Sti是一个n维分布的列向量,每一项代表着表示从节点i出发,重启随机游走t步后到达该节点的概率;S4、构造多项逻辑模型:构建多项逻辑模型近似随机游走后网络中每个节点对应的扩散向量,得到一个模型向量;构建一个模型向量与每一个扩散向量Si相匹配,通过逻辑模型的计算,使每一个模型向量贴近与其匹配的扩散向量,降低模型向量与扩散向量两者间的差异;利用回归模型,计算模型向量 其中:wj是网络特异性的参数向量,xi是网络特征的特征向量,将x进行转置,形成向量xT:xT,w为两个维度一样的d维向量,并且d远远小于n;即在构建的过程中对向量进行降维,通过公式2得到与每个扩散向量Si相匹配的模型向量S5、降低维度:对得到的n维模型向量进行降维,通过模型的构建,将xT和w设置为维度为d的向量,共有n个节点,将最初生物网络的n×n矩阵变为n×d矩阵;S6、通过S5得到两个降维后的向量,一个模型向量和一个扩散向量Si,将两者进行差异最小化,如公式3所示: w表示网络特异性的参数向量,x表示网络特征的特征向量,计算出n个x特征向量后,利用每个节点的特征向量来做数据分析,从而实现整合K个网络;S7、使用S6得到的x特征向量作为蛋白质功能预测的输入特征向量,与蛋白质功能进行对比,得出预测结果。

全文数据:

权利要求:

百度查询: 大连民族大学 一种基于多网络拓扑结构的蛋白质功能预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。