买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于提取化合物专利文件中的主题药物的方法及装置_药渡经纬信息科技(北京)有限公司_202311811193.4 

申请/专利权人:药渡经纬信息科技(北京)有限公司

申请日:2023-12-27

公开(公告)日:2024-04-09

公开(公告)号:CN117474000B

主分类号:G06F40/295

分类号:G06F40/295;G16C20/40;G06Q50/18;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要:本公开的实施例提供一种用于提取化合物专利文件中的主题药物的方法及装置。该方法包括:获得化合物专利数据集,化合物专利数据集包括多个化合物专利文件;提取化合物专利数据集中的化合物的指定信息,化合物的指定信息包括:化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次;根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重;根据多个目标化合物的权重来从多个目标化合物中确定候选化合物;计算候选化合物命中药物数据库中的药物的概率,其中,药物数据库包括不同研发阶段的药物结构信息;以及根据概率来确定目标化合物专利文件的主题药物。

主权项:1.一种用于提取化合物专利文件中的主题药物的方法,其特征在于,所述方法包括:获得化合物专利数据集,所述化合物专利数据集包括多个化合物专利文件;提取所述化合物专利数据集中的化合物的指定信息,所述化合物的指定信息包括:所述化合物在对应的化合物专利文件中出现的位置和频次以及在所述化合物专利数据集中出现的总频次;根据目标化合物专利文件中的多个目标化合物的所述指定信息来计算所述多个目标化合物的权重;根据所述多个目标化合物的权重来从所述多个目标化合物中确定候选化合物;计算所述候选化合物命中药物数据库中的药物的概率,其中,所述药物数据库包括不同研发阶段的药物结构信息;以及根据所述概率来确定所述目标化合物专利文件的主题药物;其中,提取所述化合物专利数据集中的化合物的指定信息包括:识别所述多个化合物专利文件中所有表示形式的化合物,所述表示形式包括:文字名称、由国际纯粹与应用化学联合会规定的命名法、结构式图片、简化分子输入线性录入规范字符串、化学抽象服务号、国际化学标识符、国际化学标识符密钥;将所有化合物的表示形式统一转换成国际化学标识符密钥;统计每个国际化学标识符密钥在对应的化合物专利文件中出现的位置和频次以及在所述化合物专利数据集中出现的总频次;计算所述多个化合物专利文件中的所有化合物的分子量;获得每个化合物的国际化学标识符密钥对应的简化分子输入线性录入规范字符串;以及从每个化合物的简化分子输入线性录入规范字符串中提取化合物骨架;其中,所述方法还包括:将所述目标化合物专利文件中符合以下条件的化合物确定为目标化合物:分子量在药物分子量范围内的化合物,其中,所述药物分子量范围根据所述药物数据库中的药物的分子量来确定;以及在所述化合物专利数据集中出现的总频次小于第一频次上限的化合物;其中,根据目标化合物专利文件中的多个目标化合物的所述指定信息来计算所述多个目标化合物的权重包括根据下式来计算每个目标化合物的权重: 其中,Cscore表示所述目标化合物的权重,j表示所述目标化合物在所述目标化合物专利文件中出现的位置,所述位置包括所述目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图,m表示所述位置的个数,FFj表示所述目标化合物在第j位置中出现的频次,FFj的最大值被限制为第二频次上限,CWj表示针对第j位置的超参数;其中,根据所述多个目标化合物的权重来从所述多个目标化合物中确定候选化合物包括:针对所述目标化合物专利文件中的每个化合物骨架,根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重;计算所述目标化合物专利文件中每个化合物骨架的权重占所述目标化合物专利文件中所有化合物骨架的权重之和的百分比;将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架;计算所述候选化合物骨架与所述药物数据库中的药物骨架的第一相似度;将所述第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架;计算所述核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度,其中,所述指定药物骨架是所述药物数据库中与所述核心化合物骨架的所述第一相似度大于所述第一相似度下限的药物骨架;以及将所述第二相似度大于第二相似度下限的化合物确定为所述候选化合物;其中,根据对应每个化合物骨架的目标化合物的权重来计算该化合物骨架的权重包括根据下式来计算该化合物骨架的权重: 其中,CSscore表示该化合物骨架的权重,Cscorei表示对应该化合物骨架的第i目标化合物的权重,n表示对应该化合物骨架的目标化合物的个数,FN表示在所述目标化合物专利文件中出现该化合物骨架对应的目标化合物的位置的个数,所述位置包括所述目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图,CS_w1表示根据该化合物骨架对应的目标化合物的位置而确定的参数,当该化合物骨架对应的目标化合物只出现在所述位置中的一处时CS_w1=0,当该化合物骨架对应的目标化合物只出现在权利要求书、摘要、发明名称中的至少两处时CS_w1=a,否则CS_w1=b,a大于b并且a和b都大于0且小于1。

全文数据:

权利要求:

百度查询: 药渡经纬信息科技(北京)有限公司 用于提取化合物专利文件中的主题药物的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。