买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法_大连理工大学_202111388088.5 

申请/专利权人:大连理工大学

申请日:2021-11-22

公开(公告)日:2024-05-07

公开(公告)号:CN113948156B

主分类号:G16C10/00

分类号:G16C10/00;G16C20/30;G16C20/70;G06N3/0499;G06N3/08

优先权:["20211020 CN 2021112179968"]

专利状态码:有效-授权

法律状态:2024.05.07#授权;2022.02.08#实质审查的生效;2022.01.18#公开

摘要:本发明属于面向化学品风险管理的高通量预测技术领域,公开一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法。在已知化学品分子结构的基础上,通过计算其分子指纹,应用所构建的方法,即可获得化学品在四种介质中的降解半减期。该方法简便高效、成本低,可节省实验测试的资源投入。方法的构建过程如下:降解半减期数据搜集;分子PubChem指纹计算;多任务神经网络模型训练;选用测量推测值‑预测值决定系数等指标对模型性能进行评价;参照OECD导则表征模型应用域;本发明建立的预测模型具有良好的拟合能力、稳健性和预测能力,能够有效预测应用域内化学品在四种环境介质中降解半减期,为化学品的健全管理提供必要的工具,具有重要意义。

主权项:1.一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法,其特征在于,步骤如下:1数据搜集从文献中搜集了250种化学品在四种介质中降解半减期对数值logt12,并生成化学品对应的SMILES码;2计算化学品的分子指纹将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;根据SDF格式文件计算250种化学品的PubChem分子指纹;3模型训练将化学品的PubChem分子指纹和logt12数据合并;将数据集按4:1的比例随机拆分为训练集和验证集,以化学品在四种介质中的logt12为因变量,以化学品的PubChem分子指纹为自变量,采用多层前馈神经网络结合多任务学习技术,训练多任务模型;通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建模型,并对验证集化学品的降解半减期数据进行预测,表征模型的外部预测性能;模型最佳超参数如下:含第一、第二两个隐藏层,分别包含100个和10个神经元;在第一个隐藏层之后设置Dropout层,Dropout率为20%;两个隐藏层都采用线性整流函数作为激活函数;每批训练16个化学品,总迭代次数为300,即batchsize=16,epoch=300;损失函数指标为均方误差MSE;优化器选择自适应矩估计;优化器步长设置为0.005,即learningrate=0.005;优化时四个任务设置相同的权重因子;4模型性能评估使用训练集测量推测值-预测值决定系数R2,均方根误差RMSE,平均绝对误差MAE表征模型拟合优度;验证集的R2,RMSE,MAE表征模型预测能力;使用训练集的十折交叉验证系数Q210表征模型稳健性;5应用域表征生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度,计算公式如下: 其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数;通过自行定义的相似度阈值Scutoff和最少相似分子数量Nmin来定义应用域,即若训练集中与目标分子的谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。

全文数据:

权利要求:

百度查询: 大连理工大学 一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。