申请/专利权人:四川大学
申请日:2023-11-21
公开(公告)日:2024-01-26
公开(公告)号:CN117457079A
主分类号:G16B40/00
分类号:G16B40/00;G16B50/00;G16B30/10;G06N3/0895;G06N3/096
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.02.13#实质审查的生效;2024.01.26#公开
摘要:本发明提供了一种基于简并编码及深度学习的MHC预测模型构建方法及系统,构建了能预测Ⅰ类主要组织相容性复合体与抗原肽结合的ConvNeXt‑MHC预测模型,模型主要包括两个部分,第一个部分提供了一种简并编码方法,提高了经典MHCI与多肽的结合性预测模型的泛化性能;第二个部分,设计了ConvNeXt‑MHC模型网络的整体架构,并将迁移学习和半监督学习方法整合到深度学习框架ConvNeXt中,通过扩充数据和增加先验知识的方式提升了模型的准确性和泛化性。本方案可以开展MHCI与多肽的在线结合性预测、多肽的基序分析和数据共享,捕获更丰富的信息,预测效果显著优于现有方法。
主权项:1.基于简并编码及深度学习的MHC预测模型构建方法,其特征在于,所述方法包括:S1、对pMHCI结构数据进行过滤,并对齐不同等位氨基酸残基的位点,得到预处理MHC数据;对MS数据及AF数据进行预处理,得到预处理MS数据及预处理AF数据;S2、获取伪序列位点:基于预处理MHC数据,筛选出与多肽距离小于距离阈值的候选氨基酸序列位点,保存至数据集S,并计算各位点频率;基于截断频率及各位点频率,选取氨基酸序列位点,并删除同源性位点,建立筛选后MHC数据与多肽位点对应关系,以建立伪序列位点矩阵,所述伪序列位点矩阵中各元素表示多肽位点与对应氨基酸序列位点是否接触;S3、按照多肽位点顺序,将与同一个多肽位点残基有接触的多个氨基酸序列位点编码到一个向量,以构建简并编码矩阵;S4、构建MHC模型,所述MHC模型至少包括依次连接的注意力块、第一融合深度卷积块、第一下采样层、第二融合深度卷积块和第二下采样层;所述注意力块为所述简并编码矩阵增加先验知识;S5、通过所述预处理MS数据及所述预处理AF数据,分别训练所述MHC模型,分别获得预测MS数据的抗原呈递模型及预测AF数据的亲和力结合模型。
全文数据:
权利要求:
百度查询: 四川大学 基于简并编码及深度学习的MHC预测模型构建方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。