买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习区别编码和非编码核糖核酸的方法_西安理工大学_202111008365.5 

申请/专利权人:西安理工大学

申请日:2021-08-30

公开(公告)日:2024-02-06

公开(公告)号:CN113808671B

主分类号:G16B40/00

分类号:G16B40/00;G16B25/00;G06F18/2415;G06N3/0464;G06N3/047;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.02.06#授权;2022.01.04#实质审查的生效;2021.12.17#公开

摘要:本发明公开了一种基于深度学习区别编码和非编码核糖核酸的方法,具体为:从数据库中筛选出长度大于200nt的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列,将筛选出的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列进行类平衡处理,然后处理后的每一条转录本序列转化为k‑mer频率;构建卷积神经网络模型,将经类平衡处理后的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列作为训练样本数据,将输入构建的卷积神经网络模型中进行训得到预测模型,将待区分的核酸序列输入到预测模型中得到区分结果。本发明解决了现有技术中存在的会受到不良基因注释和需要消耗大量的计算时间的问题。

主权项:1.基于深度学习区别编码和非编码核糖核酸的方法,具体按照如下步骤实施:步骤1,从数据库中筛选出长度大于200nt的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列,将筛选出的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列进行类平衡处理;步骤2,将步骤1进行类平衡处理之后的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列中的每一条转录本序列转化为k-mer频率;所述将长非编码核糖核酸转录本序列和信使核糖核酸转录本序列中的每一条转录本序列转化为k-mer频率具体为:首先将每一条转录本序列转化为k-mer模式,其中,一个k-mer模式是指一个具有k个核苷酸的特定字符串,每个字符串都是由A,T,G,C四种碱基组成,其中k=1,2,3,4,5,6,当k=1时,有A,T,G,C四种模式;当k=2时,有AA,AT,AC,AG,TA,TT,TC,TG,……,GG,16种模式,依次类推,当k=3时,有64种模式;当k=4时,有256个模式;当k=5时,有1024个模式;当k=6时,有4096个模式,因此,每一条转录本序列共有4+16+64+256+1024+4096=5460个模式;然后,以k作为滑动窗口的长度,将滑动窗口沿着每一条转录本序列滑动,滑动窗口的步长设置为1,滑动窗口在每条转录本序列上滑动时,如果在滑动窗口内的字符串与5460个模式中的某种模式匹配,则在该条转录本序列中该模式出现次数加1,由ci表示,i=1,2,3,…,5460,即就是ci表示在某条转录本序列中模式i出现的次数;则,该条转录本序列中模式i出现的频率按照如下公式计算: 其中,sk为k-mer滑动窗口沿着该条转录本序列出现的总次数,具体按照如下公式计算:sk=L-k+12其中,L为该条转录本序列的长度;其中,wK为权重系数,具体按照如下公式计算:wK=145-k3;步骤3,构建卷积神经网络模型,选取相同数量的经步骤1中的经类平衡处理后的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列作为训练样本数据,将输入构建的卷积神经网络模型中进行训练得到预测模型,将待区分的核酸序列输入到预测模型中得到区分结果;所述构建的卷积神经网络模型结构如下:第一层为卷积层,由于每个密码子是由信使核糖核酸中相邻的三个核苷酸组成,则设置滑动窗口为1*3的卷积核,其中卷积核的个数为32个,激活函数为Relu;第二层仍是卷积层,采用32个大小为1*3的卷积核,激活函数为Relu函数;第三层是最大池化层,池化区域大小是1*1;第四层是全连接层,其中有256个神经元,选取0.5的概率对第四层全连接层和第五层全连接层进行Dropout,以防止过拟合的情况,激活函数选用Relu;第五层和第六层仍为全连接层,其中神经元个数为都为64个,激活函数都为Relu,都采取0.5的概率进行Dropout;最后采用softmax函数作为激活函数得到预测结果,输出结果为0或1,其中0表示长非编码核糖核酸,1表示信使核糖核酸;所述步骤3中在进行训练时,将选取的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列对应的5460个k-mer模式对应k-mer频率,作为卷积神经网络模型的输入,作为模型预测的依据。

全文数据:

权利要求:

百度查询: 西安理工大学 基于深度学习区别编码和非编码核糖核酸的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。