买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法_青岛科技大学_202311707090.3 

申请/专利权人:青岛科技大学

申请日:2023-12-13

公开(公告)日:2024-03-22

公开(公告)号:CN117747013A

主分类号:G16C20/40

分类号:G16C20/40;G06N3/04;G06N3/08;G06N3/06;G06N3/048;G16C20/70

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明涉及一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,利用特征工程构建了高质量数据集并通过SMILES字符串和基团贡献为分子描述符作为模型输入,使用网格搜索优化算法优化了深度神经网络模型,实现了离子液体的表面张力预测,训练集的决定系数为0.994、均方根误差为0.269、平均绝对相对偏差0.36%;测试集的决定系数为0.992、均方根误差为0.773、平均绝对相对偏差0.81%。本发明解决实验测定离子液体表面张力过程中操作繁琐和工作量大的难题,并通过SHAP值的方法来解释开发的深度神经网络模型,可以快速准确地评估离子液体的表面张力。

主权项:1.一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,其特征在于实现该方法的步骤包括:步骤1:从公开文献中收集咪唑类、吡啶类、吡咯类等离子液体表面张力的实验数据,构建离子液体数据库及各个离子液体的SMILES格式表示方法;步骤2:通过特征工程从原始数据集特征中标记选择一部分不符合要求的缺失值、只有单一特征值以及高度线性相关的特征并去除;使用化学信息包RDKit根据分子的SMILES表达,计算并生成分子描述符。采用基团贡献方法将离子液体结构分解为一阶、二阶和三阶官能团,每个不同官能团的数量用作预测因子;步骤3:搭建深度神经网络模型,模型输入的特征数量由离子液体阴阳离子分子描述符合并后再附加温度和分子量共406个特征,为1×406;步骤4:以网格搜索优化算法来优化步骤3中搭建的深度神经网络模型,主要包括模型中激活函数、优化器、学习率、正则化项、隐藏层数和神经元数量等参数;步骤5:通过对步骤3中的特征输入,对深度神经网络模型进行模型的训练和保存,将保存的模型进行测试集的测试,以决定系数、均方根误差、平均绝对相对偏差为深度神经网络模型测试结果的三个评价指标,评价结束;步骤6:通过SHAP值嵌套特征变量来对梯度提升树模型进行可解释,可根据SHAP值的正负影响情况来确定输入变量特征与目标变量表面张力之间的关系;步骤7:以未知离子液体的结构为基础,其SMILES分子描述符和官能团数量作为深度神经网络模型的输入,可快速计算出该离子液体的表面张力值。

全文数据:

权利要求:

百度查询: 青岛科技大学 一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。