买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于注意力机制的剪接位点预测及解释性方法_桂林电子科技大学_202210178010.9 

申请/专利权人:桂林电子科技大学

申请日:2022-02-25

公开(公告)日:2024-04-02

公开(公告)号:CN114566216B

主分类号:G16B20/30

分类号:G16B20/30;G16B40/00;G06N3/084;G06N3/045;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.06.17#实质审查的生效;2022.05.31#公开

摘要:本发明公开了一种基于注意力机制的剪接位点预测及解释性方法,该方法提出结合注意力机制的卷积神经网络模型,精准识别剪接位点,并基于模型,提出可视化权重解释分析方法,在五个物种上建立了有效的预测模型。独立测试集的结果证明了在涉及五个物种的10个数据集上,本发明模型比现有模型更具有鲁棒性,性能更优,泛化能力更强。随后,为研究结合注意力机制的卷积神经网络模型能达到更好性能的原因,本发明采用于梯度类激活映射可视化技术获取模型对于每个样本的位置权重分布,最终验证了模型能够自动注意并获取到样本的有效特征。本发明可以提高预测精度和对剪接位点序列进行解释性分析。

主权项:1.一种基于注意力机制的剪接位点预测及解释性方法,其特征在于,包括如下步骤:1收集五个物种的剪接位点数据集,将收集到的剪接位点数据集进行正负样本划分,分为训练集、验证集和测试集;2将步骤1获得的五个物种剪接位点数据集,根据每个物种既有供体剪接位点样本又有受体剪接位点样本,共分成10个样本数据集,并将该10个样本数据集的碱基序列转为Onehot编码;3利用多层次的非线性函数模拟数据之间的复杂关系,构建卷积神经网络模型,其表达式为:Lableofclass=ffcnfconv2fconv1Sequencenucleotidesignal其中Lableofclass表示卷积神经网络模型最终的分类,Sequencenucleotidesignal表示碱基序列所对应的输入特征编码,fconv1表示第一层卷积层,fconv2表示第二个卷积层,ffcn表示将输入特征经过卷积等步骤后的中间结果传入全连接层;在卷积神经网络模型中,若每个神经元连接的过滤器窗口的权重是固定,则依据平移不变性滑动共享过滤器权重,卷积层由一组过滤器组成,滑动过滤器与输入向量作点积运算,对于输入x,每个通道上都有一个过滤器ω1,c,第一个卷积层的第一个过滤器点积运算结果z1,i,j,k表示为:z1,i,j,k=x*ω1,ci,j,k+b1,k,1其中i、j和c分别表示该卷积层输出的行、列和通道,k为当前层的过滤器,b1,k,1表示第一个过滤器卷积操作时的偏置值;基于三个通道的卷积层输出结果z1,i,j,c为: 其中i、j和c分别表示输入该卷积层的行、列和通道,l、m、n分别代表过滤器的行、列和通道,k为当前卷积层使用的过滤器;4基于步骤3对输入的特征编码进行初步的特征学习,采用基于卷积模块的注意力机制CBAMConvolutionalBlockAttentionModule,CBAM对步骤3的结果进行注意力关注学习,从通道注意力和空间注意力两部分获取特征图的关键位置,给定中间特征图F∈RC×H×W作为输入,CBAM依次推断一维通道注意力Mc∈RC×1×1和二维空间注意力,公式表示如下: 其中表示逐元素乘法,在乘法时,注意力值被相应地广播,F1是特征图F经过通道注意力模块输出结果,F1和F2为注意力机制模块CBAM最终结果的输出;5基于步骤3构建的卷积神经网络模型和步骤4中的注意力机制CBAM,构建基于注意力机制的卷积神经网络模型,利用步骤1划分的训练集和验证集对基于注意力机制的卷积神经网络模型进行训练和训练过程中模型的验证输出,每次训练作30次迭代,以交叉熵损失函数更新反向传播,交叉熵损失函数对于每个类别预测得到的概率为p和1-p,交叉熵损失函数L的表达式为: 其中Li表示样本i的损失函数,N表示样本总数,yi表示i的label,正类为1,负类为0;pi表示样本i预测为正类的概率;6将测试集数据输入步骤5训练好的模型中,获取模型的预测分值并构建混淆矩阵,最终在准确率Acc、特异性Sp、敏感性Sn、F分数F1和受试者工作特征曲线下面积AUC评估五个物种的供体剪接位点和受体剪接位点的性能,具体为: 其中TP、TN、FP和FN分别代表真阳性,真阴性,假阳性和假阴性的数目;7进行解释性分析:采用梯度类激活映射Grad-CAM可视化技术实现对卷积神经网络模型内部表征及决策结果的解释,Grad-CAM首先计算c类别的卷积神经网络模型得分对于卷积层的梯度,同时对得到的梯度信息,在每个通道上对各特征向量值取平均,即全局平均池化,得到各个特征图的权重,特征图尺寸为c1*c2,权重计算公式为: 其中表示第i个特征图对类别c的权重,Z表示特征图的数量,表示第i个特征图的第k行、第j列像素值,Sc为第c类的分类得分;通过加权求和平均,再使用ReLu激活函数计算可得Grad-CAM结果,计算公式为: 其中表示c类的类激活映射结果,采用可视化技术查看剪接位点序列的不同位置权重分数,最终获得热力图和不同位置预测分值的权重图;8泛化性分析:依据不同物种的解释性分析结果和模型性能比较,获得跨物种解释性分析以及跨物种剪接位点共性规律分析。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。