买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种筛查致癌性化学品的集成学习方法_大连理工大学_202210316494.9 

申请/专利权人:大连理工大学

申请日:2022-03-29

公开(公告)日:2022-07-12

公开(公告)号:CN114743614A

主分类号:G16C20/70

分类号:G16C20/70;G16C20/90;G16C20/30;G06N20/20;G06Q10/06;G06Q50/26

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.07.29#实质审查的生效;2022.07.12#公开

摘要:本发明属于面向化学品风险管理的高通量筛查技术领域,公开一种筛查致癌性化学品的集成学习方法。在已知化学品分子结构的基础上,通过计算其分子指纹,应用所构建的方法,即可筛查出具有致癌性的化学品。该方法简便高效、可节省实验测试费用。方法的构建过程如下:构建化学品致癌性数据集;分子PubChem指纹计算并进行预处理和特征筛选;集成模型训练;选用准确率等指标对模型性能进行评价;参照OECD导则表征模型应用域;本发明建立的筛查模型具有良好的拟合能力、稳健性和预测能力,能够有效筛查应用域内具有致癌性的化学品,为化学品的健全管理提供必要的工具,具有重要意义。

主权项:1.一种筛查致癌性化学品的集成学习方法,其特征在于,步骤如下:1数据库构建从致癌潜力数据库CPDB中整理805种化学品致癌性数据,其中包括427种致癌物和378种非致癌物,并获取化学品对应的SMILES码;2计算化学品的分子指纹将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;根据SDF格式文件计算805种化学品的PubChem分子指纹;3模型训练以化学品的PubChem分子指纹作为模型的输入,有无致癌性作为模型的预测终点,构建分类模型;将数据集按3:1的比例随机拆分为训练集和测试集,内部验证采取十折交叉验证重复十次,以减小随机误差;测试集用于模型的外部验证;采用四种机器学习算法:支持向量机、随机森林、梯度提升决策树和人工神经网络作为基分类器,采取三三组合的方式并结合软投票策略构建4个集成模型;软投票策略中各个基分类器的权重相同;在人工神经网络模型中,为了避免过拟合,采用批处理和Dropout方法;所有基分类器通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建集成模型,并对验证集化学品的致癌性进行预测,表征模型的外部预测性能;模型调节的超参数如下:支持向量机的最佳超参数为径向基作为核函数,C=1000,gamma=1;随机森林的最佳超参数为用gini指数划分属性,最大深度max_depth为40,弱分类器即决策树的数目n_estimators为1000,每棵决策树的最大特征数为总特征数的平方根max_features='sqrt',随机种子random_state设为10;梯度提升决策树的最佳超参数为学习率learning_rate等于0.001,max_depth=20,n_estimators=2000,max_features='sqrt',random_state=10;人工神经网络的最佳超参数为隐藏层神经元neurons个数为512,每批次训练的样本数batch_size为500,dropout_rate=0.5,总迭代次数epochs为500,输入层采用线性整流函数作为激活函数,隐藏层采用sigmoid函数作为激活函数,二分类的交叉熵作为损失函数,优化器选择RMSProp;4模型性能评估使用训练集准确率RA,敏感度RSE,特异性RSP和受试者工作特征曲线下的面积AROC表征模型拟合优度;验证集的RA,RSE,RSP,AROC和马修斯相关系数RMCC表征模型预测能力;使用训练集的十折交叉验证的标准偏差STD表征模型稳健性;5应用域表征生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度,计算公式如下: 其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数;通过自行定义的相似度阈值Scutoff和最少相似分子数量Nmin来定义应用域,即若训练集中与目标分子的谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。

全文数据:

权利要求:

百度查询: 大连理工大学 一种筛查致癌性化学品的集成学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。