买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】蛋白质残基接触图预测方法_浙江理工大学_202110664113.1 

申请/专利权人:浙江理工大学

申请日:2021-06-16

公开(公告)日:2024-02-23

公开(公告)号:CN113257357B

主分类号:G16B30/10

分类号:G16B30/10;G16B40/00;G16B50/00;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.02.23#授权;2021.08.31#实质审查的生效;2021.08.13#公开

摘要:本发明公开了一种基于深度神经网络框架的蛋白质残基接触图预测方法,包括搭建集成深度神经网络框架、数据集的选取、使用一维特征和二维特征作为网络的输入特征、使用搭建的集成深度神经网络框架在数据集上学习预测模型、模型参数设置、将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。该蛋白质残基接触图预测方法对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。

主权项:1.一种基于深度神经网络框架的蛋白质残基接触图预测方法,其特征在于,所述预测方法包括以下步骤:1、搭建集成深度神经网络框架:由1DResNet、2DDilatedSe-ResNet和2DDenseNet三种网络集成得到集成深度神经网络框架;该框架首先使用1DResNet处理由多序列比对生成的序列特征;再使用外连接函数处理序列特征,再与成对特征相结合;将合并的特征通过2DDilatedSE-ResNet网络;最后通过2DDenseNet的稠密连接特性充分处理数据特征,从而提高蛋白质接触图的预测精度;2、数据集的选取:将PDB25的子集作为训练集,将CASP12、CASP13、CAMEO和mems400作为测试集;所述训练集是PDB25的子集,其中任何两种蛋白质的序列同一性都小于25%;满足以下条件之一的蛋白质从序列排除:Ⅰ序列长度小于26或大于700;Ⅱ分辨率低于Ⅲ具有多个蛋白质链组成的结构域;3、使用一维特征序列特征和二维特征成对特征作为网络的输入特征;其中一维特征由L×54的二维矩阵表示,L是蛋白质序列的长度,54表示特征的维度,二维特征由L×L×5的三维矩阵表示;一维特征包括位置特异性计分矩阵PSSM、位置特异性频率矩阵PSFM、3态的蛋白质二级结构SS3、3态的溶剂可及性ACC和氨基酸理化性质CP;二维特征包括直接协同进化信息,MSA矩阵以及成对电势;位置特异性计分矩阵PSSM和位置特异性频率矩阵PSFM是通过HHblits程序在uniprot_sprotdatabase搜索同源序列,然后构建出多序列比对MSA,最后计算得出;3态的蛋白质二级结构SS3和3态的溶剂可及性ACC分别来自于Bi-LSTM和DSPRED;直接协同进化信息来自于CCMPred、MSA信息矩阵和成对电势;氨基酸理化性质CP由L×8的二维矩阵表示,其中L为蛋白质序列长度;氨基酸理化性质CP包括疏水性,Grapn形状指数,极化率,范德华规范化体积,无规卷曲Ca化学位移,局部电效应,pK-aRCOOH和Informationmeasureforloop;4、使用步骤1搭建的集成深度神经网络框架在数据集上学习预测模型;1D残差网络是由一系列残差块组成;1D残差块由两层卷积构成,对于两层的残差块表示为:y=w2fw1x+b1+b2①fx=max0,x②其中f表示线性单位激活函数,w1,w2,b1和b2分别是第一层和第二层的权重和偏差;1DResNet的输出为L×n的矩阵,其中n为网络最后一个卷积层生成的新特征数量;2D残差网络是由一系列dilatedse-residualblock组成;设计残差模块:所述残差模块由两层卷积层构成,卷积层之间为批处理归一化层和ReLU激活,所述残差模块添加了SE模块,并且在第二次卷积采用了空洞率为2的膨胀卷积;所述SE模块首先对卷积得到的特征图进行Squeeze操作,得到channel级的全局特征,然后对全局特征进行Excitation操作,学习各个channel间的关系,得到不同channel的权重,最后乘以原来的特征图得到最终特征;DenseNet网络结构主要由DenseBlock和Transition组成;5、模型参数设置:将SEmodule的ratio设定为0.2,空洞卷积的空洞率设定为2;使用最大似然函数来训练模型参数,将最大化训练蛋白质的天然接触发生概率;因此,将损失函数定义为在训练蛋白质的所有残基对上的平均负对数似然函数,即交叉熵函数;具体如下:Et,y=-∑itilogyi③其中,ti是标签,yi是预测的结果;由于所有残基对之间的接触比例很小,为使训练算法快速收敛,将较大的权重分配给了形成接触的残基对;为了防止网络过拟合,采用L2正则化来减少参数空间;找到一组具有较小L2正则化参数以最小化损失函数;使用随机梯度下降算法来最小化目标函数,设置学习率为0.01;每次迭代20-30个周期以获得较好的结果;使用dropout函数来随机丢弃神经元,初始值设为0.4;6、将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。

全文数据:

权利要求:

百度查询: 浙江理工大学 蛋白质残基接触图预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。