买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】内含子保留预测模型建立方法及其预测方法_中南大学_202010146731.2 

申请/专利权人:中南大学

申请日:2020-03-05

公开(公告)日:2023-05-23

公开(公告)号:CN111370055B

主分类号:G16B20/00

分类号:G16B20/00;G16B5/00;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2023.05.23#授权;2020.07.28#实质审查的生效;2020.07.03#公开

摘要:本发明公开了一种内含子保留预测模型建立方法,包括收集内含子保留相关的模拟数据和真实数据;定义基因组中所有独立内含子集合并作为标准模板;获取得到的模拟数据中所设定的内含子序列读数分布模式图片数据集并处理得到处理后的数据集;将处理后的数据集按照设定比例划分为训练集和测试集;采用训练集训练神经网络模型得到最终建立的神经网络内含子保留预测模型。本发明还公开了包括所述内含子保留预测模型建立方法的预测方法。本发明能够基于内含子保留读数分布模式对内含子进行可视化以及预测,而且可靠性高,准确性好。

主权项:1.一种内含子保留预测模型建立方法,包括如下步骤:S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;S2.定义基因组中所有独立内含子集合并作为标准模板;S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;b.分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;c.对于步骤b得到的图像,裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型。

全文数据:

权利要求:

百度查询: 中南大学 内含子保留预测模型建立方法及其预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。