买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度学习的DNA模体长度预测方法及预测系统_西安电子科技大学_202010552399.X 

申请/专利权人:西安电子科技大学

申请日:2020-06-17

公开(公告)日:2024-04-05

公开(公告)号:CN111933217B

主分类号:G16B30/00

分类号:G16B30/00;G16B40/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2020.12.01#实质审查的生效;2020.11.13#公开

摘要:本发明属于DNA序列片断检测技术领域,公开了一种基于深度学习的DNA模体长度预测方法及预测系统,构建预测模体长度的机器学习模型,在包含模体的延伸矩阵中自动地学习模体的特征,进而可以智能地预测未知模体的长度。使用机器学习解决这一问题的条件已经具足。本发明利用已有数据可以构建充足的预测模体长度的训练样本。深度学习等机器学习模型近些年得到了快速的发展,并成功地应用于包含生物信息学在内的多种领域,利用深度学习可以更好地学习延伸矩阵中的模体特征并进行模体长度预测。本发明提出的模型在测试集上的预测准确率达到了90%以上,并且能够成功地优化现有模体发现算法找出的模体。

主权项:1.一种基于深度学习的DNA模体长度预测方法,其特征在于,所述基于深度学习的DNA模体长度预测方法包括:构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点根据公式计算延伸矩阵Me,由Me根据公式计算相对熵向量V,将V作为样本并把这个模体的长度l作为标签;构建基于卷积神经网络的预测模体长度的深度学习模型;预测模型的应用:用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵Me和一个相对熵向量V,把V作为预测模型的输入;根据预测模型得出模体长度l得到优化的模体;构建基于卷积神经网络的预测模体长度的深度学习模型的方法包括:用卷积层conv、池化层pool和全链接层net组成CNN;CNN为每个基色建立一个通道,使用卷积核对不同的通道分别进行卷积,最终把卷积后的结果进行融合;预测模体长度的样本是相对熵向量,将样本作为一维图像,且每个像素值由一个基色分量组成;将长为L的相对熵向量复制两份拓展成3×L的矩阵,记为Minput,作为模型的输入;CNN模型fMinput表示如下:fMinput=netpoolconvMinput;第一层是卷积层为一个特征扫描器,在矩阵Minput中提取隐含的高相对熵片断的特征;将卷积核的长度设置为24;卷积核为3×24的矩阵;设置128个卷积核,并进行随机初始化;在训练中,更新的参数是128个3×24的卷积核和128个3×24的偏执项;将扫描输入矩阵Minput的步长设置为1;输出是一个40×128的张量,其中40是Minput的长度,128是卷积核的个数;第二层是池化层,用于保留主要特征;这输入是卷积层输出的40×128的张量通过激活函数ReLU处理后的结果;采用最大池化进行采样,并将池化窗口大小设置为4;池化的输出是一个10×128的张量;ReLUx=max{0,x};第三层是神经网络,输入层是池化层输出的10×128的张量转化成的向量;通过一个隐藏层将这个向量与输出层作映射;将隐藏层中神经元的个数设置为256;从输入层到隐藏层间的参数为10×128×256个权值和相同个数的偏执项;输出层包含14个神经元,对应于14种模体长度;从隐藏层到输出层间的参数是256×14个权值和相同个数的偏执项;在隐藏层和输出层间执行Dropout操作,在训练时随机的丢弃一些隐藏层的神经元,防止模型过拟合;使用Softmax函数作为激活函数,将输出层中各神经元的数值zi1≤i≤14映射到[0,1]区间内: 使用交叉熵函数作为模型的损失函数;假设模型对于某个标签为y的样本的预测输出为y',样本的loss值;使用Adam算法降低损失函数值并以此来优化模型; 预测模型应用方法包括:第一步,在构建预测样本时,直接由Mmotif定位位点并将Mmotif置于延伸位点的正中心,生成一个延伸矩阵Me,然后得到一个相对熵向量V作为预测样本;将V输入给预测模型得到模体长度;第二步,根据预测模型预测出的模体长度l优化现有模体发现算法找出的模体Mmotif;第三步,预测模型用于加速现有模体发现算法。

全文数据:

权利要求:

百度查询: 西安电子科技大学 一种基于深度学习的DNA模体长度预测方法及预测系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。