申请/专利权人:华东理工大学;华东师范大学
申请日:2022-09-16
公开(公告)日:2022-12-09
公开(公告)号:CN115458077A
主分类号:G16C20/62
分类号:G16C20/62;G16C20/80;G06F16/28
优先权:
专利状态码:在审-公开
法律状态:2022.12.09#公开
摘要:本发明涉及基于人工智能的药物研发领域,公开了一种基于公开文献中的图像和文本数据构建近药空间数据库的方法及其系统,通过构建结合图像识别神经网络和命名实体识别的神经网络的多模态融合系统,可同时处理公开文献中的图像数据及文本数据,分别提取所述图像数据和文本数据中涵盖的分子结构信息,并基于此进一步构建近药空间数据库,为扩大近药空间带来了新的机遇,获取的具有良好可合成性、成药性及生物活性的分子结构可用于拓展近药空间,在药物研发前期提供大量的近药分子用于先导化合物筛选,从而可大大加速药物研发进程。
主权项:1.一种基于公开文献中的图像和文本数据构建近药空间数据库的方法,其特征在于,包括以下步骤:从第一公共数据库中下载SMILES格式的化合物结构;使用RDKit工具包生成对应所述SMILES格式的化合物结构的图像数据;将所述图像数据作为输入特征,并将所述SMILES格式的化合物结构中的原子、键和电荷的分类与坐标信息作为输出特征,训练图像识别神经网络;从第二公共数据库中下载化合物分子的文本数据,使用文本注释软件对所述文本数据进行标注,生成与所述文本数据对应的化合物分子的取代基实体名称;将所述文本数据作为输入特征,并将所述取代基实体名称作为输出特征,训练命名实体识别的神经网络;构建分子结构数据库,该分子结构数据库中包括化合物分子的取代基实体名称、化合物取代基分子结构、化学名称和SMILES格式的一一对应关系;将公开文献中的图像数据和文本数据输入多模态学习系统,得到所述公开文献中涵盖的SMILES格式的化合物结构中的原子、键和电荷的分类与坐标信息和化合物分子的取代基实体名称集合,其中所述多模态学习系统包括所述图像识别神经网络和所述命名实体识别的神经网络;根据所述公开文献中涵盖的SMILES格式的化合物结构中的原子、键和电荷的分类与坐标信息进行组合并经RDKit工具包转换为所述公开文献中涵盖的SMILES格式的化合物结构;根据所述化合物分子的取代基实体名称,从所述分子结构数据库中得到所述公开文献中涵盖的化合物取代基分子结构;根据所述公开文献中涵盖的SMILES格式的化合物结构和所述公开文献中涵盖的化合物取代基分子结构,重建所述公开文献中涵盖的完整化合物结构,并根据所述完整化合物结构构建近药空间数据库;其中,所述近药空间是指具有可合成性、成药性和药理活性的化合物分子集合。
全文数据:
权利要求:
百度查询: 华东理工大学;华东师范大学 基于公开文献中的图像和文本数据构建近药空间数据库的方法及其系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。