买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于高通量测序数据的枯萎病发病预测模型及应用_南京农业大学_202010160122.2 

申请/专利权人:南京农业大学

申请日:2020-03-10

公开(公告)日:2024-03-22

公开(公告)号:CN111243676B

主分类号:G16B40/00

分类号:G16B40/00;G16B30/00;G16B5/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2020.06.30#实质审查的生效;2020.06.05#公开

摘要:本发明提出一种基于高通量测序数据的枯萎病发病预测模型及应用,通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据,利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征,获取45个细菌和40个真菌的分类操作单元相对丰度特征用于辨别健康土壤和枯萎病发病土壤,并分别建立细菌模型和真菌模型,实现准确判别土壤枯萎病的发病情况,揭示枯萎病患病土壤微生物群落特征。

主权项:1.一种基于高通量测序数据的枯萎病发病预测模型,其特征在于,包括以下步骤:步骤1:数据收集:使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号,进而获取枯萎病相关的土壤微生物群落的原始测序数据;步骤2:数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析:(1)在谷歌、NCBI、欧洲核酸数据库,日本核酸数据库上下载每个项目中全部样品的列表文件;(2)使用prefetch工具根据list文件下载原始测序数据;(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果;(4)使用fastqc工具结合shell脚本对测序数据进行质量评估;(5)通过Rstudio整合Qiime+usearch+seqkit+R工具形成两套基于GreengeneV13.5和Unite的Pipline进行自动化原始数据处理;拼接双端原始测序数据,过滤低质量序列,并基于参考数据库聚类操作分类单元OTU,将OTU分配到微生物门类信息;(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并;步骤3:将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:步骤3-1:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:使用随机森林创建分类模型,利用版本号为v.4.6-14的RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行建模,获得最佳预测模型的细菌分类级别;对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的细菌分类级别;在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型;通过交叉检验提取出来对模型影响最大的45个OUT及丰度信息,细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;在OTU水平上使用随机森林函数对细菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的细菌分类模型;步骤3-2:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:利用R语言中的版本号为v.4.6-14的RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行分类建模,获得最佳预测模型的真菌分类级别;对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别;在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型;通过交叉检验提取出来对真菌模型影响最大的40个OTU及丰度信息,真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;在OTU水平上利用随机森林函数对真菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的真菌分类模型。

全文数据:

权利要求:

百度查询: 南京农业大学 一种基于高通量测序数据的枯萎病发病预测模型及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。