买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于强化学习的单一体系的分子生成方法及装置_烟台国工智能科技有限公司_202410077808.3 

申请/专利权人:烟台国工智能科技有限公司

申请日:2024-01-19

公开(公告)日:2024-04-09

公开(公告)号:CN117594157B

主分类号:G16C20/50

分类号:G16C20/50;G16C20/70;G06N3/045;G06N3/084;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要:基于强化学习的单一体系的分子生成方法及装置,属于分子生成预测技术领域,该方法对收集的分子表达式进行去重处理得到分子数据集;对分子数据集通过原子替换的方式进行扩充,得到扩充数据集并进行去重处理;通过去重处理后的扩充数据集,对Transformer模型进行预训练,得到预训练模型V1;对预训练模型V1进行强化学习处理,得到预训练模型V2;对预训练模型V2进行微调处理,微调处理过程中定量挑选满足条件的分子参与到预训练模型V2的训练,得到微调处理后的预训练模型V3,通过预训练模型V3进行单一体系的新分子生成。本发明显著提高了满足生产要求的新分子的发现效率,大大缩短化学领域内实验室新分子研发的周期。

主权项:1.基于强化学习的单一体系的分子生成方法,其特征在于,包括:从公开数据库中收集分子表达式,对收集的所述分子表达式进行去重处理得到分子数据集;对所述分子数据集通过原子替换的方式进行扩充,得到扩充数据集,对所述扩充数据集进行去重处理;通过去重处理后的所述扩充数据集,对Transformer模型进行预训练,得到预训练模型V1;对所述预训练模型V1进行强化学习处理,得到预训练模型V2;对所述预训练模型V2进行微调处理,微调处理过程中定量挑选满足条件的分子参与到所述预训练模型V2的训练,得到微调处理后的预训练模型V3,通过所述预训练模型V3进行单一体系的新分子生成;通过去重处理后的所述扩充数据集,对Transformer模型进行预训练,得到预训练模型V1的步骤包括:将所述分子数据集中的smiles分子表达式编码为矩阵;将编码矩阵输入Transformer模型并得到分子编码输出;利用交叉熵损失计算分子编码输出与正确smiles分子表达式间的损失值;并采用反向传播更新Transformer模型参数;当Transformer模型经过若干轮次训练损失值趋于稳定时,保存当前Transformer模型作为预训练模型V1;对所述预训练模型V1进行强化学习处理,得到预训练模型V2的步骤包括:利用所述预训练模型V1生成当前批次的分子的smiles表达式;按照设定的评分标准对生成的当前批次的smiles表达式进行评估打分;将评估分数作为所述预训练模型V1的奖励对所述预训练模型V1的权重进行训练;进行若干轮次迭代训练后,保存最后一轮的所述预训练模型V1作为预训练模型V2;设定的评分标准score为: 式中,similarity代表生成分子的smiles表达式与单一体系中分子的相似性;当smiles有效时,score赋值为similarity相似度,无效时,score赋值为0;利用交叉熵损失计算分子编码输出与正确smiles分子表达式间的损失值loss1的公式为:loss1=1+score*loss`1;对所述预训练模型V2进行微调处理的步骤包括:将所述预训练模型V2的参数分别赋给Agent模型和Prior模型,使所述Agent模型参与训练,更新所述预训练模型V2的参数,使所述Prior模型梯度冻结不参与参数更新;利用Agent模型生成分子的smiles表达式,筛选满足设定条件的smiles表达式,当数量满足设定阈值时,停止生成;并通过Prior模型生成同等数量的smiles表达式;将所有生成的smiles表达式汇总,然后输入Agent模型和Prior模型,分别得到Agent模型的输出likelihoodagent和Prior模型的likelihoodprior,并利用Agent模型的输出likelihoodagent和Prior模型的输出likelihoodprior构建损失函数;对损失值取均值,并采用反向传播更新所述预训练模型V2的参数,当所述预训练模型V2经过训练损失值趋于稳定时,保存当前模型作为预训练模型V3;利用Agent模型的输出likelihoodagent和Prior模型的输出likelihoodprior构建的损失函数loss2的公式为:loss2=likelihoodagent-likelihoodprior2式中,likelihoodagent为Agent模型计算出的smiles表达式的损失值;likelihoodprior为Prior模型计算出的smiles表达式的损失值。

全文数据:

权利要求:

百度查询: 烟台国工智能科技有限公司 基于强化学习的单一体系的分子生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。