买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种双端成对的剪接位点预测方法_桂林电子科技大学_202210178009.6 

申请/专利权人:桂林电子科技大学

申请日:2022-02-25

公开(公告)日:2024-03-22

公开(公告)号:CN114566215B

主分类号:G16B20/30

分类号:G16B20/30;G16B40/00;G06N3/084;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.06.17#实质审查的生效;2022.05.31#公开

摘要:本发明公开了一种双端成对的剪接位点预测方法,该方法通过获取双端成对的剪接位点样本序列作为基准数据集和独立数据集;将碱基序列通过基于序列本身、物理化学性质等多种特征提取方式进行编码;组合多种特征作为一个多通道多维的向量表示;训练卷积神经网络模型;最后进行评估。这种预测方法可以结合样本多种特征表示方式,帮助卷积神经网络充分学习样本内在模式,提高了双端成对的剪接位点预测的准确率。

主权项:1.一种双端成对的剪接位点预测方法,其特征在于,包括如下步骤:1以人类参考基因组序列为来源,依据参考基因组序列文件和参考基因组注释文件收集剪接位点序列数据,所述剪接位点序列数据包括经典剪接位点序列和非经典剪接位点序列,对收集到的剪接位点序列数据进行数据处理,包括对数据的长度、内含子和外显子进行区域识别处理,以及正负样本划分处理后,将剪接位点序列数据分为训练集、验证集和测试集;2对步骤1获得的训练集、验证集和测试集样本进行特征编码,样本序列由腺嘌呤A、腺嘧啶T、胞嘧啶C、鸟嘌呤G和未知N组成,N表示可能为A、T、C、G中任意一个;采用序列位置信息、顺序信息,以及物理化学性质对样本序列进行编码,将序列字符编码为数值格式,采用Mismatch、Kmer、RevKmer、IDKmer、Subsequence、DAC、DCC、DACC、TAC、TCC、TACC、MAC、GAC、NMBAC、PseDNC、PseKNC、PC-PseDNC-General、PC-PseTNC-General、SC-PseDNC-General、SC-PseTNC-General多种特征表示方式,得到样本的特征编码向量;所述Mismatch特征表示方式,设α是长度为k的子串,k,m-mismatch特征图在α上定义为: 其中A表示有限的字母,包括A、C、G或T碱基;若β∈Nk,mα,其中β是与α最多不匹配的k-mer子串的集合,然后输入序列的特征图x是k-mer子串的特征向量之和为: k,m-mismatch核定义为特征空间中对应的特征映射的点积: 3构建卷积神经网络模型,模型的网络构建表达式为:Lableofclass=ffcnfconv2fconv1Sequencenucleotidesignal其中Lableofclass表示卷积神经网络模型最终的分类,Sequencenucleotidesignal表示碱基序列所对应的输入特征编码,fconv1表示第一层卷积层,fconv2表示第二个卷积层,ffcn表示将输入特征经过卷积步骤后的中间结果传入全连接层;对于输入x,每个通道上都有一个过滤器ω1,c,第一个卷积层的第一个过滤器点积运算结果z1,i,j,k表示为:z1,i,j,k=x*ω1,ci,j,k+b1,k,1其中i,j和c分别表示该卷积层输出的行、列和通道,k为当前层的过滤器,b1,k,1表示第一个卷积操作过滤器k的偏置值;对于通道i,有z1,i:z1,i=xi*ω1,ci+b1,i三个通道的卷积层输出结果z1,i,j,c为: 其中i,j和c分别表示最终输出的行、列和通道;l,m,n分别代表过滤器的行、列和通道,k为当前层使用的过滤器符号表示;接着进入池化层,池化层分为平均池化、最小池化和最大池化,采用最大池化,保留突出特征,最终通过softmax函数,输出该样本属于每类的预测得分,公式如下:fiz=expzi∑jexpzj其中fiz表示样本属于第i个分类的总预测分数,zj表示属于第j个分类节点的得分,zi表示属于第i个分类节点的得分;基于预测分值和训练集中标签的实际值计算损失,通过反向传播不断缩小差距,以使得模型性能得到提高,最终获得剪接位点预测模型;每次训练从训练集中获取128个训练样本训练,直到将训练集所有样本输入并训练模型;模型以交叉熵损失函数更新反向传播,进行30次迭代,每次迭代则输入验证集样本对每次迭代训练后的模型进行性能验证,验证集的使用可以提前避免模型进入过拟合和挑选更优的超参数;交叉熵损失函数对于每个类别我们的预测得到的概率为p和1-p,此时交叉熵损失函数L的表达式为: 其中,Li表示样本i的损失函数,N表示样本总数,yi表示i的label,正类为1,负类为0;pi表示样本i预测为正类的概率;4将步骤2进行特征编码后的测试集输入步骤3得到的训练好的卷积神经网络模型中,获取模型的预测分值并构建混淆矩阵,最终在准确率ACC、特异性SP、敏感性SN、F分数F-score、马修斯相关系数MCC和受试者工作特征曲线下面积AUC评估五个物种的供体剪接位点和受体剪接位点的性能,表达式如下: 其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的样本数目。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种双端成对的剪接位点预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。