买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于条件离散扩散模型的核酸适体生成方法_湖南大学_202310596495.8 

申请/专利权人:湖南大学

申请日:2023-05-25

公开(公告)日:2024-03-29

公开(公告)号:CN116631499B

主分类号:G16B15/30

分类号:G16B15/30;G16B40/00;G16B50/00;G06F18/2415;G06N3/0455;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2023.09.08#实质审查的生效;2023.08.22#公开

摘要:本发明公开了一种基于条件离散扩散模型的核酸适体生成方法,S1、通过经SELEX筛选的候选核酸序列构建数据集;S2、对数据集进行数据预处理得到最终的训练数据:S3、得到训练好的变分自编码器模型;S4、构建并训练条件离散扩散模型:S5通过条件离散扩散模型生成新的核酸适体序列;S6、测得生成的核酸适体与靶标蛋白的结合亲和力;S7、通过测得的由每个类别分布的中心点生成的核酸适体序列的SPR值,在隐空间进行贝叶斯优化,得到下一轮可能的结合亲和力更高的点。S8、重复步骤S6和S7,直至得到的核酸适体序列的SPR值不再变化。本发明与传统的SELEX筛选流程结合,有利于提高核酸适体筛选效率和发现与靶标蛋白更具结合亲和力的核酸适体,对促进功能性核酸的多场景应用有着重要的指导作用。

主权项:1.一种基于条件离散扩散模型的核酸适体生成方法,其特征在于,包括如下步骤:S1、通过经SELEX筛选的候选核酸序列构建数据集;S2、对数据集进行数据预处理得到最终的训练数据;S3、将最终的训练数据通过一个变分自编码器模型进行训练,使得变分自编码器模型学习到具有motif依赖的低维隐空间,得到训练好的变分自编码器模型;S4、构建并训练条件离散扩散模型:4.1将训练好的变分自编码器模型作为离散扩散模型的条件编码器;4.2离散扩散模型针对离散的分类数据,通过使用多分类分布去定义分类数据前向扩散过程,在前向扩散过程中,在每个时间t∈{1,…,T},不断地为输入的训练数据添加随机噪声,当t=T时,输入数据的概率分布满足一个先验的各向同性的均匀分布;所述离散的分类数据包括腺嘌呤A、胸腺嘧啶T、鸟嘌呤G、胞嘧啶C;4.3离散扩散模型在逆扩散过程中,通过训练好的变分自编码器模型的编码器得到的输入数据的低维隐空间表示z当作条件,并使用Transformer作为去噪模型,去重构出原始的序列;至此,条件离散扩散模型构建完毕;4.4训练条件离散扩散模型:输入的数据为处理好的SELEX筛选序列,通过最小化对数似然的损失函数,训练条件离散扩散模型直至损失曲线收敛,从而得到训练好的条件离散扩散模型;S5、在离散条件扩散模型训练完成后,通过高斯混合模型对由训练好的变分自编码器得到的低维隐空间分布进行分类,在每个类别分布中随机采样若干个点,并将上述采样的点作为条件通过训练好的条件离散扩散模型生成新的核酸适体序列;S6、对在每个类别分布采样的点生成的核酸适体通过表面等离子共振SPR分析测得生成的核酸适体与靶标蛋白的结合亲和力;S7、通过测得的由每个类别分布的采样点生成的核酸适体序列的SPR值,在隐空间进行贝叶斯优化,在隐空间得到下一轮可能的结合亲和力更高的点,并再次通过训练好的条件离散扩散模型生成新的核酸适体序列;S8、重复步骤S6和S7,直至得到的核酸适体序列的SPR值不再变化。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于条件离散扩散模型的核酸适体生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。