【发明授权】多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法_北京悦康科创医药科技股份有限公司_202410165333.3

申请/专利权人：北京悦康科创医药科技股份有限公司

申请日：2024-02-05

公开（公告）日：2024-05-10

公开（公告）号：CN117711532B

主分类号：G16C20/70

分类号：G16C20/70;G16C20/50;G06N3/0455;G06N3/082

优先权：

专利状态码：有效-授权

法律状态：2024.05.10#授权;2024.04.02#实质审查的生效;2024.03.15#公开

摘要：本发明提供一种多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法。该方法的一具体实施方式包括：通过利用与目标受体之间结合有活性的活性多肽氨基酸序列，再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列，再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示，并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列，再以样本多肽词元特征序列作为输入数据，以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而，多肽氨基酸序列生成模型可以预测与目标受体之间具有结合活性的多肽氨基酸序列。

主权项：1.一种多肽氨基酸序列生成模型训练方法，包括：获取活性多肽氨基酸序列集合，其中，活性多肽与目标受体之间具有结合活性；对于每个所述活性多肽氨基酸序列，执行以下样本特征数据生成操作：对于该活性多肽氨基酸序列进行词元切分，得到活性多肽词元序列；对于所述活性多肽词元序列的每个片段词元序列，执行以下嵌入特征表示操作：基于该片段词元序列生成输入词元序列和标签词元序列，所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元，其中，所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到，所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到；对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列；将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中，以完成针对该片段词元序列的嵌入特征表示操作；基于所述样本特征数据集合，对初始多肽氨基酸序列生成模型进行训练，得到训练后的多肽氨基酸序列生成模型，具体包括：将样本特征数据中的样本多肽词元特征序列连续预设最长多肽氨基酸序列长度次输入初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征，将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列，基于实际输出多肽词元特征序列和相应标签多肽词元特征序列之间的差异，采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数，其中，所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。

全文数据：

权利要求：

百度查询：北京悦康科创医药科技股份有限公司多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：信号时序信息评估方法及测试方法、装置及存储介质_中芯国际集成电路制造(上海)有限公司_202211446116.9

下一篇：聚羟基烷酸酯的制造方法及其利用_株式会社钟化_202080065317.7

相关技术

信号时序信息评估方法及测试方法、装置及存储介质_中芯国际集成电路制造(上海)有限公司_202211446116.9

聚羟基烷酸酯的制造方法及其利用_株式会社钟化_202080065317.7

运样系统防出错方法、样本运样系统和样本分析仪_中元汇吉生物技术股份有限公司_202211445049.9

图像处理方法、装置、电子设备及存储介质_北京达佳互联信息技术有限公司_202011046638.0

加热器_浙江三花汽车零部件有限公司_202211445973.7

基于显示器的图像无限切割拼接技术_深圳市嘉利达专显科技有限公司_201910610447.3

电热水壶控制方法和电热水壶_杭州九阳净水系统有限公司_202211444182.2

一种多极断路器_上海正泰智能科技有限公司_202211450942.0

应用程序的测试方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202211444321.1

人脸活体检测方法、装置、设备及存储介质_平安银行股份有限公司_202111148144.8

基于指纹识别键实现导航功能的方法、存储介质及终端_努比亚技术有限公司_201910151273.9

一种文本分类方法及装置_中国电子进出口有限公司_202011400717.7

龙图腾网&IPTOP

【发明授权】多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法_北京悦康科创医药科技股份有限公司_202410165333.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务