申请/专利权人:山东大学
申请日:2020-04-24
公开(公告)日:2020-08-28
公开(公告)号:CN111599412A
主分类号:G16B30/10(20190101)
分类号:G16B30/10(20190101);G06N3/04(20060101);G06N3/08(20060101)
优先权:
专利状态码:在审-实质审查的生效
法律状态:2020.09.22#实质审查的生效;2020.08.28#公开
摘要:本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中,首先通过连续三分序列分词将DNA序列进行分词,得到各个三联核苷酸,然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量,所有的词向量合并后得到预训练特征向量矩阵,预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量,将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层,词嵌入层将三联核苷酸序列特征向量化,然后经过卷积、池化训练得到卷积神经网络,通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别,最终识别出ORI;本申请的识别准确度大大提高。
主权项:1.一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,其特征在于,包括:从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。
全文数据:
权利要求:
百度查询: 山东大学 基于词向量与卷积神经网络的DNA复制起始区域识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。