买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法_北京悦康科创医药科技股份有限公司_202410165333.3 

申请/专利权人:北京悦康科创医药科技股份有限公司

申请日:2024-02-05

公开(公告)日:2024-05-10

公开(公告)号:CN117711532B

主分类号:G16C20/70

分类号:G16C20/70;G16C20/50;G06N3/0455;G06N3/082

优先权:

专利状态码:有效-授权

法律状态:2024.05.10#授权;2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明提供一种多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法。该方法的一具体实施方式包括:通过利用与目标受体之间结合有活性的活性多肽氨基酸序列,再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列,再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示,并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列,再以样本多肽词元特征序列作为输入数据,以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而,多肽氨基酸序列生成模型可以预测与目标受体之间具有结合活性的多肽氨基酸序列。

主权项:1.一种多肽氨基酸序列生成模型训练方法,包括:获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,具体包括:将样本特征数据中的样本多肽词元特征序列连续预设最长多肽氨基酸序列长度次输入初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征,将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列,基于实际输出多肽词元特征序列和相应标签多肽词元特征序列之间的差异,采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。

全文数据:

权利要求:

百度查询: 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。