买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种具有编码蛋白潜力的ncRNA的识别方法_河南城建学院_202111218699.5 

申请/专利权人:河南城建学院

申请日:2021-10-20

公开(公告)日:2022-02-01

公开(公告)号:CN114005529A

主分类号:G16H50/20(20180101)

分类号:G16H50/20(20180101);G16B20/30(20190101);G06N3/08(20060101);G06N3/04(20060101)

优先权:

专利状态码:失效-发明专利申请公布后的撤回

法律状态:2022.05.13#发明专利申请公布后的撤回;2022.02.22#实质审查的生效;2022.02.01#公开

摘要:本发明公开了一种具有编码蛋白潜力的ncRNA的识别方法,根据ncRNA的序列,首先通过对比学习框架获取ncNRA序列的低维向量表示,同时,也根据ncRNA序列计算其一些重要的统计特征,比如ORF覆盖率,Fickett等。然后,通过使用多模态特征融合方法进行特征融合,并把融合后的特征作为多层神经网络的输入,实现ncRNA编码潜能的预测。本发明与现有的技术相比,通过自监督的方式学习序列的低维向量表示很好地避开了绝大部分ncRNA数据未标注的问题,另外,提出使用注意力门控机制来学习特征之间非线性融合的普适性方法,以此来捕获特征之间的复杂关系。本发明可以比以前的技术更准确地识别出能够编码蛋白的ncRNA,在一定程度上,解决了生物实验方法的困难性大、盲目性、成本高的问题。

主权项:1.一种具有编码蛋白潜力的ncRNA的识别方法,其特征在于,包括如下步骤:步骤1,对ncRNA序列进行变换,即对每一个ncRNA序列S,产生两个变换序列S1=AugS,seed1和S2=AugS,seed2,其中,seed1和seed2是两个随机种子;步骤2,ncRNA经步骤1变换后得到序列假定为S1,通过滑动长度k的窗口来将序列S1转换为重叠的固定长度k-mer子序列;步骤3,构建基于Transformer的学习模型f˙,并把步骤2得到的k-mer子序列作为f˙的输入学习ncRNA的表示,即,H1=fS1,H2=fS2;步骤4,用含有一个隐藏层的多层神经网络作为非线性投影函数g˙将步骤3得到的向量表示投影到新空间,即zi=ghi=W2σW1hi;步骤5,定义对比损失函数,最大化同一个ncRNA序列不同变换序列之间的一致性,训练模型,模型训练结束后,encoder函数f˙的输出即为ncRNA的向量表示;步骤6,计算ncRNA的统计特征,包括ORF长度、ORF的覆盖率、Fickett分数、Hexamer分数、核苷酸偏倚、GC含量,AUG含量及等电点分数等;步骤7,把步骤6得到的统计特征通过非线性方式叠加到步骤5得到的序列的嵌入表示he上;步骤8,在步骤7获得融合向量hf后,再把此向量输入到全连接神经网络中即可实现对ncRNA编码蛋白潜能的预测。

全文数据:

权利要求:

百度查询: 河南城建学院 一种具有编码蛋白潜力的ncRNA的识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。