恭喜电子科技大学长三角研究院(衢州)刘利获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜电子科技大学长三角研究院(衢州)申请的专利一种基于预训练模型和RNA二级结构的RNA G-四链体预测方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119724349B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510228817.2,技术领域涉及:G16B30/00;该发明授权一种基于预训练模型和RNA二级结构的RNA G-四链体预测方法和系统是由刘利;姬海波;邹权;鱼亮;丁漪杰设计研发完成,并于2025-02-28向国家知识产权局提交的专利申请。
本一种基于预训练模型和RNA二级结构的RNA G-四链体预测方法和系统在说明书摘要公布了:本发明公开了一种基于预训练模型和RNA二级结构的RNAG‑四链体预测方法和系统,包括,获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;对每条正样本序列进行打乱得到负样本序列;生成每条样本序列的RNA二级结构特征;使用预训练模型提取样本序列的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练。本方案利用RNA序列的二级结构特征,引入二级结构特征作为辅助信息,能够显著提升模型的预测性能。
本发明授权一种基于预训练模型和RNA二级结构的RNA G-四链体预测方法和系统在权利要求书中公布了:1.一种基于预训练模型和RNA二级结构的RNAG-四链体预测方法,其特征在于,该方法包括:构建正负样本:获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;通过对每条正样本序列进行保持二核苷酸频率不变的打乱处理得到负样本序列;生成每条正样本序列、负样本序列的RNA二级结构特征,且所述的二级结构特征包括相应序列中每个核苷酸的不配对概率,利用viennaRNA工具包中的RNAplfold包,通过“RNAplfold-u1pathtodata”命令生成;使用预训练的BERT模型提取正样本序列和负样本序列的序列特征,具体包括:将正样本序列和负样本序列转换为BERT所需的tokens:将序列划分k-mer形式的tokens,在所述tokens的开头添加特殊的起始标记,在结尾添加结束标记,用于表示序列的整体特征和分隔符,同样将它们视为token;使用tokenizer将所述tokens转化为BERT模型需要的输入格式;预训练的BERT基于输入的tokens生成每个token的上下文表示BERT嵌入,得到数据集的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练,包括分别对序列特征和RNA二级结构特征使用分层多尺度残差网络进行进一步的特征提取,并将提取到的特征进行拼接,将拼接后的特征输入第二卷积神经网络进行特征融合,通过SE模块实现对特征的重标定,并通过残差连接和全局平均池化聚合特征信息,最终基于所述特征信息预测RNAG-四链体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学长三角研究院(衢州),其通讯地址为:324003 浙江省衢州市柯城区成电路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。