买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于融合序列特征及结构特征开发的多肽抗癌活性预测模型建立方法及其应用_中国药科大学_202311527658.3 

申请/专利权人:中国药科大学

申请日:2023-11-16

公开(公告)日:2024-03-22

公开(公告)号:CN117747131A

主分类号:G16H70/40

分类号:G16H70/40;G16B40/00;G16B30/10;G16B20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明属于数据处理技术领域,具体涉及基于融合序列特征及结构特征开发的多肽抗癌活性预测模型建立方法及其应用。本发明融合多肽序列特征与三维结构特征用于构建模型,可作为往后构建抗癌肽预测模型的重要参考方法。以准确率与MCC值为标准,本发明构建的抗癌肽预测模型表现优良,各模型的内部稳健性与外部泛化性均表现优良,可在潜在抗癌肽的发现中成为实用方法。

主权项:1.一种基于融合序列特征及结构特征开发的多肽抗癌活性预测模型建立方法,其特征在于,按如下步骤实现:1抗癌活性多肽数据的收集与无抗癌活性的多肽数据的收集首先是抗癌活性多肽数据的收集,将收集到的抗癌肽数据分成天然抗癌肽与化学修饰抗癌肽两组,最后为确保模型可学习到多种类型抗癌肽的共同特征,规避同类特征的影响,将两库收集的天然肽合并后,利用CD-Hit进行序列相似性聚类,将clusteringthreshold设置为0.85以去除相似度超过85%的多肽;进入SATPdb与Uniprot数据库网站收集非抗癌活性肽的序列,化学修饰,三维结构信息;同样将非抗癌活性肽分为天然与化学修饰两组,剔除相似度超过85%的多肽;2组成多肽数据集上述收集并初步筛选的多肽共计6组,分别记为源自CancerPPD的天然抗癌多肽数据集d1,源自CancerPPD的化学修饰抗癌多肽数据集d2,源自SATPdb的天然抗癌多肽数据集d3,源自SATPdb的天然非抗癌多肽数据集d4,源自SATPdb的化学修饰非抗癌多肽数据集d5,源自Uniprot的天然非抗癌多肽数据d6;将数据集d1、d3、d4合并组成天然肽数据集D1,将数据集d1、d3、d6合并组成天然肽数据集D2,将数据集d2、d5合并组成化学修饰肽数据集D3,将数据集D1、D3合并组成混合数据集D4,将数据集D2、D3合并组成混合数据集D5;将这五组重组后的数据集作为模型开发的基础,由此通过比较同一模型在不同数据集上的表现可分析样本数据的差异对于模型优劣的影响;最后打开2020版MOE软件,选择保存有多肽三维结构的pdb格式的数据集文件分开导入,手动添加activity数值列,将抗癌肽的对应数值设为1,非抗癌肽设为0,以mdb格式文件进行保存;3计算描述符选择使用2020版MOE软件中的描述符计算模块进行所需分子描述符的计算,该模块中共有435个描述符并按计算维数分为二维、三维描述符和蛋白描述符;在MOE软件中打开保存有多肽数据信息的mdb格式文件,在交互界面依次选择“Compute”、“Descriptors”、“Calculate”命令,进入描述符选择界面后选择全部描述符进行计算,结束后先保存为txt格式文件再转换为csv格式文件;4特征挑选并非所有描述符均与预测的目标性质密切相关,冗余的数据将影响到最终的模型效果,所以为获得更优秀的模型,利用适当的特征筛选方式以获得与抗癌活性密切相关的描述符是必要的;MOE软件内部含有初步的筛选功能,通过对描述符与分子特性相关性的分析,可剔除四项指标均为0的描述符;再利用Scikit-learn库中含有的多种特征选择函数,对经过MOE软件初步筛选的描述符进行进一步的筛选;本发明中选择单变量特征选择中的SelectKBest函数进行特征的二次筛选,该函数能够对每一个特征进行测试,通过卡方检验-chi2给出该特征与相应变量之间的相关性得分,在对函数中参数k进行自定义后即可保留得分最高的k个特征;5模型构建A、构建高斯朴素贝叶斯模型用python语言编写模型代码,导入构建高斯朴素贝叶斯模型;当输入特征为分子描述符时,使用pandas读取保存于csv格式文件中的有多肽数据集信息,定义各描述符列为特征列,抗癌活性列为标签列;当输入特征为氨基酸序列时,将氨基酸序列转换为词向量,并将氨基酸序列设置为特征列,抗癌活性为标签列;将原始数据集进行随机划分,取80%的数据为训练集,20%的数据为测试集;利用GaussianNB函数构建模型,投入训练集与测试集进行模型的训练与测试,保存模型;通过将cross_val_score的参数cv设为5进行五折交叉验证,利用classification_report、confusion_matrix、roc_auc_score和roc_curve分别获得分类报告、混淆矩阵和AUC值,利用Matplotlib绘制ROC曲线图;B、构建支持向量机SVM模型用python语言编写模型代码,导入一系列程序包;按输入特征的区别在读取数据时进行相应的预处理并进行训练集与测试集的分割;利用SVC函数构建模型,核函数类型选择高斯核函数RBF,本发明中参数gamma值设为1×10-6;参数C为SVM的惩罚参数,为获得合适的C值,此处另外从Scikit-learn库中导入GridSearchCV函数进行网格搜索最佳参数,设置C的值域为[10-3,103],GridSearchCV函数将获得值域内按等比数列分布的50个元素用于模型,并选择其中的最佳值;投入训练集与测试集进行模型的训练与测试并保存模型,利用五折交叉验证进行内部验证,通过调用相应程序包获得分类报告、混淆矩阵,ROC曲线图和AUC值;C、构建K近邻KNN模型用python语言编写模型代码,导入一系列程序包;按输入特征的区别在读取数据时进行相应的预处理并进行训练集与测试集的分割;利用KNeighborsClassifier函数构建模型,本发明中用于评价样本相似度的度量距离为欧几里得距离;参数n_neighbors即为K值,为获得合适的K值,此处将其设为从1至9的九个整数,依次进行模型的训练与预测,保存效果最佳的参数与模型;同样进行五折交叉验证及调用相应程序包获得一系列评估参数;D、构建逻辑回归LogisticRegression模型用python语言编写模型代码,导入一系列程序包;对输入数据进行预处理,调用KNeighborsClassifier函数构建模型;参数penalty用于指定指定惩罚的基准-正则化参数,参数solver可选择逻辑回归损失函数的优化方法;本发明中选择L2正则化与lbfgs优化方法;参数C为正则化系数λ的倒数,为选择合适的C值,同样可调用GridSearchCV函数进行网格搜索;进行模型训练与测试后保存最佳模型,调用相应程序包获得五折交叉验证结果及一系列评估参数;E、构建集成学习模型导入程序包,对输入数据进行相应的预处理,分别构建上述四种模型,对各个模型的参数进行调整设置;调用VotingClassifier将四种基础模型集合构建投票分类模型,参数voting设置为hard,即多数投票-硬投票分类方式;训练、测试并保存模型,调用相应程序包获得一系列评估参数;F、构建全连接神经网络模型FCNN用python语言编写模型代码,导入相关程序包;读取数据集输入信息,以分子描述符作为特征,抗癌活性作为标签;由于部分分子描述符的计算结果为负数无法进行embedding-嵌入,所以调用preprocessing.MinMaxScaler进行归一化处理;对原始数据集划分为训练集与测试集,调用Sequential开始进行模型构造,调用Input设置输入维度,即特征数量;用Dense构建输入层、隐藏层和输出层,每层神经元调用Tanh函数激活,输出层仅设一个神经元并调用sigmoid函数激活;调用model.compile进行训练模型参数的配置,参数optimizer用于设置优化器,本发明选择Adam;参数loss用于设置损失函数,此处选择binary_crossentropy,即二元交叉熵函数;参数metrics用于设置评估标准,设置为accuracy;调用ModelCheckpoint函数保存训练中产生的最佳模型,设置监测参数monitor为val_loss,即选择验证集损失函数最低的模型保存;调用ReduceLROnPlateau函数实现学习率的衰减,使损失函数更趋近于最优值,参数monitor为监测参数,设为val_loss;参数factor为学习率衰减率,设为0.5;参数patience为触发衰减的训练轮数,设为5;调用model.fit进行模型训练,设置validation_split参数为0.2,epochs参数-迭代轮次为100,batch_size参数-训练步长为512,callbacks参数-召回函数为checkpoint和Reduce;训练并保存最佳模型用于测试集评估,调用相应函数获得各项评估参数并绘制模型训练与验证时的准确率曲线图和损失函数曲线图;G、构建长短期记忆神经网络LSTM用python语言编写模型代码,导入相关程序包;分割训练集与测试集,读取数据集输入信息中的氨基酸序列,调用Tokenizer与pad_sequences对序列进行词向量化与补齐,将其作为序列特征,将抗癌活性作为标签;调用Input设置输入维度为最长序列的长度;构建Embedding层,设置output_dim为64,即将词向量中的每个单词转换为64维的向量,设置词汇集合intput_dim为32;调用Bidirectional和LSTM构建模型,设置隐藏层神经元数量units参数为128;调用Dense构建输出层,设置含有一个神经元且以sigmoid函数激活;训练并测试模型,收集模型评估信息,保存模型;H、构建神经网络与机器学习的混合模型打开PyCharm软件,按所需混合的神经网络与机器学习算法类型导入上述相应模型构建时所用程序包;数据集经相应预处理后,首先按上述步骤构建神经网络算法,然后将神经网络的输出向量作为输入数据构建相应的机器学习算法模型;此过程可视为将神经网络的输出层改为机器学习模型,经神经网络训练提取特征再由机器学习算法完成分类;I、构建LSTM-FCNN融合神经网络打开PyCharm软件,按上述模型构建方法导入所需程序包,分别构建LSTM模型与FCNN模型,输入数据集的序列信息被读取进入LSTM模型,分子描述符信息被读取进入FCNN模型,两者的初步输出信息将通过调用concatenate被融合再进入共享的多层隐藏层与输出层;详细参数调整均与上述神经网络模型构建相似,训练并测试模型,收集模型评估信息,保存模型;6模型评估A、交叉验证crossvalidation与损失函数欠拟合与过拟合为模型构建与训练过程中最常遇见的问题,极大的影响了模型的效果;针对欠拟合问题,一般采用的方法为修改模型参数、增加学习器或者增加迭代次数;在机器学习中用于解决过拟合问题的方法常为交叉验证,它的思想是在模型训练过程中,将训练集随机分割为互斥的数个子集,每次训练时保留一个子集不参与训练,在模型训练结束后将这个子集当作测试集对模型进行一次评估;每个子集均有一次机会对模型进行测试,取所有测试结果的平均值作为内部验证的最终评分;此类交叉验证即为K折交叉验证,K为分割子集的数量,常用K值有5、10、20;在神经网络训练的过程中常用损失函数来解决拟合问题;损失函数可以体现模型对样本的预测值和真实值的差异程度,损失函数越低,通常模型的性能越好;在模型训练过程中,每一次迭代都将获得一个损失函数值,通过所有损失函数值便可绘制损失函数曲线,在模型过拟合前,训练集与验证集的损失函数曲线都为降低的趋势,互相接近且趋近一个各自的极限值;而一旦产生过拟合,验证集损失函数将上升,两条曲线将逐步分离;由此便可确定一个合适的迭代轮次来避免模型的拟合问题获得最佳的效果;B、评估参数在二分类模型中,预测值可分为真阳性TP:预测阳性样本为阳性;假阳性FP:预测阴性样本为阳性;真阴性TN:预测阴性样本为阴性;假阴性FN:预测阳性样本为阴性;根据TP、FP、TN、FN便可计算模型的评价参数,一般包括灵敏度-Sensitivity,Sen:体现了真阳性数据占总阳性数据的比例;特异性-Specificity,Spc:体现真阴性数据占总阴性数据的比例;准确率-Accuracy,Acc:预测正确的样本占总样本的比例;马修斯相关系数-Matthewscorrelationcoefficient,MCC:描述预测结果与实际分类之间的相关度,是二分类模型的性能综合指标;它们的公式如下: ROC曲线以真阳率TPR为横坐标,假阳率FPR为纵坐标构成,真阳率与灵敏度等价,假阳率表示假阳性数据占总阴性数据的比例;AUC值为ROC曲线下面积,其值越大,模型性能越佳公式如下:

全文数据:

权利要求:

百度查询: 中国药科大学 基于融合序列特征及结构特征开发的多肽抗癌活性预测模型建立方法及其应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。