买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法_中南民族大学_201910546474.9 

申请/专利权人:中南民族大学

申请日:2019-06-21

公开(公告)日:2021-11-26

公开(公告)号:CN110379462B

主分类号:G16B30/20(20190101)

分类号:G16B30/20(20190101);C12Q1/6869(20180101)

优先权:

专利状态码:有效-授权

法律状态:2021.11.26#授权;2019.11.19#实质审查的生效;2019.10.25#公开

摘要:本发明公开一种利用Illumina数据组装中华金腰叶绿体基因组序列的方法。该方法分为四步,首先通过Illumina技术对中华金腰叶绿体全基因组进行测序后,将得到的原始数据比对到叶绿体参考基因组上,获得比对上的数据。其次,将比对上的reads打断为kmer长度,基于DeBruijin算法进行kmer组装成为不同的contigs,并利用contigs之间的overlap关系再次连接得到数据量更大的scaffold。第三,利用原始Illumina测序的数据,对得到的scaffold进一步延伸,将最后得到的scaffold直接map到亲缘关系最近物种的叶绿体基因组上,找到其IR区域,进行手动拼接即可获得完整的植物叶绿体基因组。本发明最大的优点是无需提取叶绿体,直接利用生物信息学方法和手段就可以获取叶绿体基因组及其完整图谱。

主权项:1.一种组装金腰叶绿体基因组序列的方法,其特征在于,所述方法的步骤为:1、估算样品大小并测序利用流式细胞术大致估算出金腰的基因组大小,然后对中华金腰的基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData;2、比对并提取选取与中华金腰近缘物种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将CleanData与岩白菜进行比对,再利用samtools将比对上的数据进行提取,此时从全基因组中分离出叶绿体数据;3、选取最合适的kmer值提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式;利用kmergenie软件进行21-127mer的kmer分析,由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,其中前一个峰值小,后一个峰值大,并且前一峰值的大小约为后一峰值的一半,从中选取组装最好的kmer值为81;4、进行组装利用ABYSS算法进行组装拼接,其结果为,ContigsNumber49、MinContigNumber81、MaxContigNumber20389ContigN507702;5、利用overlap进行连接利用Sequencher5.4.6软件将两个contig之间有overlap的进行连接,得到更长的scaffold;6、进一步scaffolding利用原始CleanData数据,通过SSPACE软件将scaffold进一步延伸,最终得到scaffolds的数目为19,其中最小的scaffold长度为192bp,最长的scaffold长度为53813bp,scaffoldN50长度为38067bp;7、找到IR区域并进行拼接将最终得到的scaffold直接map到岩白菜的叶绿体基因组上,发现实际用上的只有前三个scaffold,找到中华金腰的IR区域,将其连接起来即可得到叶绿体基因组,并基于序列信息进行分析,构建出叶绿体基因组结构图;所述中华金腰叶绿体基因组结构图如附图1所示。

全文数据:一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法技术领域本发明属于生物信息技术领域,具体涉及一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法。背景技术金腰属植物全球约70种,亚、欧、非、美四洲均有分布,以亚洲温带分布为主。中国目前发现金腰属植物约36种,广泛分布于云南、西藏、四川、贵州、湖北、湖南、东北等二十多个省份。金腰属植物因富含黄酮类化合物而具较高药用价值,《中国植物志》、《中国药植图鉴》以及《全国中草药汇编》均有关于本属植物的药效记载,多用于清热解毒、治疗肝胆病等。其也在中国传统医药历史发展中得到广泛应用,如藏药中称其为亚吉玛,藏医学者帝玛尔·丹增平措著作《晶珠本草》中载有“亚吉玛生于高山石隙,味苦性凉,缓吐泻,治胆疾。”此外金腰属植物还被收录于蒙医学著作《无误蒙药鉴》中。近年来研究表明金腰属植物普遍含有较高的黄酮类及三萜类化合物具良好抗肿瘤和抗病毒活性,其中从裸茎金腰C.nudicale中分离到的五环三萜对恶性褐色瘤A375、4种胃癌ST-KM,KaTo-III,NKPS,KKLS和膀胱癌KK-47都具较强抑制作用,且该属植物中特有且普遍存在的金腰酮B和金腰酮CChrysosplenolB,ChrysosplenolC都有显著的抗病毒活性。以上生理活性表明金腰属植物值得进一步研究和开发。基因组二代测序技术已广泛应用于生命科学的各个领域,相较于桑格测序,二代测序的测序成本大大降低,测序速度高,准确性较好。现在广泛应用的包括Roche公司的454测序系统、ABI公司AppliedBiosystems的SOLiD测序平台、Illumina公司的Solexa测序平台,其中Illumina在所有测序技术中,由于其测序成本低、测序测度快,迅速被广泛使用。植物细胞有核基因组、线粒体基因组和叶绿体基因组3套遗传体系,且都相对独立遗传。其中叶绿体能够进行半自主式复制,普遍存在于藻类和绿色植物中,是光为生物的生命活动提供能量,成为推进早期生命进化的能量源头,在生命的漫长进化中发挥了重要作用。并且叶绿体基因组较核基因组更为保守,常常作为探究物种亲缘关系,起源进化等的依据之一。叶绿体基因组较小,若直接对叶绿体基因组进行测序,只能够分析叶绿体数据,而目前对全基因组进行测序同样可以提取叶绿体数据,不仅节省时间,并且数据能够多用,极大降低了成本。然而,在现有技术中,并没有对金腰的叶绿体基因组的结构组成给出明确的记载,如何通过测序技术,以及测序片段的拼接获得金腰的叶绿体基因组的结构,从而为后续金腰种质资源的开发打下基础。另外,不同的植物,由于其基因组序列组成的不同,叶绿体序列组成不同,在拼接测序判断的过程中,其适用的算法也不同,ABySS、SOAPdenovo-Trans、Oases、IDBA-Tran、BinPacker、Bridger、Trinity等。Trinity是应用最广、公认度最高的从头转录组拼接软件,也是第一个专门针对转录组拼接开发的软件。如何摸索出最适合金腰叶绿体基因组拼接的算法,也是本领域急需解决的技术问题。发明内容为了解决现有技术中的问题,本发明提供了一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法,可以直接利用中华金腰全基因组序列数据进行组装,该方法适用于金腰叶绿体基因组的组织,并获得了中华金腰的叶绿体基因组的结构,从而为后续金腰属植物种质资源的开发打下基础。在一个实施方式中,本发明提供一种中华金腰叶绿体基因组结构图谱,其特征如附图1所示。在一个实施方式中,本发明提供一种中华金腰叶绿体基因组结构图谱在开发中华金腰种质资源中的应用。在一个实施方式中,本发明提供一种组装中华金腰叶绿体基因组序列的方法,其特征在于,所述方法的步骤为:本发明提供的组装植物叶绿体基因组序列方法,具体步骤为:1.大致估计样品的大小,并利用Illumina技术对样品进行测序;2.将测序数据比对到叶绿体参考基因组上,提取比对上的数据;3.基于DeBruijin算法对叶绿体基因组进行组装,将序列打断成kmer长度,kmer值为21-127,选取其中组装最合适的kmer值;4.化简DeBruijin图后,在DeBruijin图或其子图中寻找一条最优的欧拉途径,该路径对应的碱基序列即为contigs;5.利用contigs之间的overlap关系,将其进一步连接形成scaffold;6.利用Illumina测序数据将scaffold进一步延伸;7.将上步得到的scaffold直接map到亲缘关系最近物种的叶绿体基因组上,找到叶绿体的四个区域——LSC、SSC、IRa、IRb,由于IRa与IRb为反向重复序列,可手动进行调整拼接得到完整的叶绿体基因组。在一个实施方式中,所述步骤1为样品不需分离植物叶绿体,可直接对全基因组进行测序。在一个实施方式中,所述步骤2为叶绿体参考基因组为近缘种的叶绿体全基因组。在一个实施方式中,所述步骤3步骤3选取21-127其中所有奇数作为kmer值进行测试。在一个实施方式中,所述步骤4为overlap关系是前一个contig的后几个序列与后一个contig的前几个序列相同或几乎相似,即可以将两个contig连接起来在一个实施方式中,所述步骤6利用原始的数据作为参考序列,对scaffold进行延伸。在一个实施方式中,所述步骤为:1、估算样品大小并测序利用流式细胞术大致估算出金腰的基因组大小,然后对中华金腰的基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData。2、比对并提取选取中华金腰近缘种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将CleanData与岩白菜进行比对,再利用samtools将比对上的数据进行提取,此时大致从全基因组中分离出叶绿体数据。3、选取最合适的kmer值提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式。利用kmergenie软件进行21-127mer的kmer分析,由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,其中前一个峰值小,后一个峰值大,并且前一峰值的大小约为后一峰值的一半,从中选取组装最好的kmer值为81。4、进行组装利用ABYSS算法进行组装拼接,其结果为,ContigsNumber49、MinContigNumber81、MaxContigNumber20389ContigN507702;5、利用overlap进行连接利用Sequencher5.4.6软件将两个contig之间有overlap的进行连接,得到更长的scaffold。6、进一步scaffolding利用原始CleanData数据,通过SSPACE软件将scaffold进一步延伸,最终得到scaffolds的数目为19,其中最小的scaffold长度为192bp,最长的scaffold长度为53813bp,scaffoldN50长度为38067bp。7、找到IR区域并进行拼接将最终得到的scaffold直接map到岩白菜的叶绿体基因组上,发现实际用上的只有前三个scaffold,找到中华金腰的IR区域,将其连接起来即可得到叶绿体基因组,并基于序列信息进行分析,构建出叶绿体基因组结构图,如权利要求1中所示。在一个实施方式中,本发明提供一种组装中华金腰叶绿体基因组序列的方法在制备金腰叶绿体基因组结构图谱中的应用。在一个实施方式中,本发明提供一种组装中华金腰叶绿体基因组序列的方法在开发金腰种质资源中的应用。与现有技术相比,可以达到以下有益效果:本发明首次获得了中华金腰叶绿体基因组结构图谱,为后期中华金腰的遗传研究,种质资源利用,打下基础。同时,本发明通过摸索不同的拼接算法和条件,获得了ABYSS是进行金腰叶绿体基因组序列组装的最适拼接方法,为准确快速的获得金腰叶绿体基因组的结构与组成奠定基础。附图说明图1是中华金腰叶绿体基因组结构图谱;图2是中华金腰叶绿体基因组序列组装方法中的kmer图;具体实施方式为了更好的理解本发明的技术方案,下面结合实施例详细描述本发明提供的技术方案。实施例1中华金腰叶绿体基因组序列的组装方法1、估算样品大小并测序利用流式细胞术大致估算出中华金腰的基因组大小,然后对其基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData。2、比对并提取选取中华金腰近缘种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将中华金腰的CleanData与岩白菜的进行比对,再利用samtools将比对上的数据进行提取,此时大致从全基因组中分离出叶绿体数据。3、选取最合适的kmer值提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式的序列。利用kmergenie软件进行21-127mer的kmer分析,从中得出此序列最佳的Kmer值为81。由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,如图2所示,其中前一个峰值的Kmer深度小为157,后一个峰值的Kmer深度大为319,并且前一峰值对应的Kmer深度约为后一峰值的一半。4、进行组装利用DeBruijin图拼接算法中典型算法进行组装,并用cd-hit软件去除冗余的序列,5、利用overlap进行连接利用Sequencher5.4.6软件将两个contig之间有overlap的进行连接,得到更长的scaffold。6、进一步scaffolding利用原始CleanData数据,通过SSPACE软件将scaffold进一步延伸,最终得到scaffolds的的确定数目以及不同scaffolds的长度信息。7、找到IR区域并进行拼接将最终得到的scaffold直接map到岩白菜的叶绿体基因组上,发现实际用上的只有前三个scaffold,找到中华金腰的IR区域,将其连接起来即可得到叶绿体基因组。实施例2不同拼接算法对中华金腰叶绿体基因组序列组装的影响为了探究不同拼接算法对中华金腰叶绿体基因组序列组装的影响,力求寻找到最合适中华金腰叶绿体基因组序列组装的拼接算法,本实施采用如下实验设计:中华金腰ChrysospleniumsinicumMaxim.的基因组大小仅为300M,在金腰属中属于基因组含量较小的物种,因此,本实验中选用中华金腰ChrysospleniumsinicumMaxim.作为材料进行叶绿体基因组的组装。吉姆萨染色组:采用常规吉姆萨溶液染色ABYSS组:选用ABYSS算法进行组装;Velvet组:选用Velvet算法进行组装;SPAdes组:选用SPAdes算法进行组装;SOAPdenovo组:选用SOAPdenovo算法进行组装;具体实验如下:1、估算样品大小并测序利用流式细胞术大致估算出中华金腰的大小为300M,然后对中华金腰的基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData。2、比对并提取选取中华金腰近缘种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将CleanData与岩白菜进行比对,再利用samtools将比对上的数据进行提取,此时大致从全基因组中分离出叶绿体数据。3、选取最合适的kmer值提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式的序列。利用kmergenie软件进行21-127mer的kmer分析,从中得出此序列最佳的Kmer值为81。由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,如图2所示,其中前一个峰值的Kmer深度小为157,后一个峰值的Kmer深度大为319,并且前一峰值对应的Kmer深度约为后一峰值的一半。4、进行组装DeBruijin图拼接算法中典型算法有:ABYSS,Velvet,SPAdes,SOAPdenovo,利用以上对应软件分别进行组装,并用cd-hit软件去除冗余的序列,四个组装软件的结果如下:表1四个组装软件组装信息从上述表1中可以看出,4中不同的拼接算法,其中ABYSS的结果最好,最适用于后期的实验处理,可见,ABYSS是进行中华金腰叶绿体基因组序列组装的最适拼接方法。实施例3中华金腰叶绿体基因组序列的组装和叶绿体基因组结构1、估算样品大小并测序利用流式细胞术大致估算出金腰的基因组大小,然后对中华金腰的基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData。2、比对并提取选取中华金腰近缘种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将CleanData与岩白菜进行比对,再利用samtools将比对上的数据进行提取,此时大致从全基因组中分离出叶绿体数据。3、选取最合适的kmer值4、提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式的序列。利用kmergenie软件进行21-127mer的kmer分析,从中得出此序列最佳的Kmer值为81。由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,如图2所示,其中前一个峰值的Kmer深度小为157,后一个峰值的Kmer深度大为319,并且前一峰值对应的Kmer深度约为后一峰值的一半。进行组装利用ABYSS算法进行组装拼接,其结果为,ContigsNumber49、MinContigNumber81、MaxContigNumber20389ContigN507702;5、利用overlap进行连接利用Sequencher5.4.6软件将两个contig之间有overlap的进行连接,得到更长的scaffold。6、进一步scaffolding利用原始CleanData数据,通过SSPACE软件将scaffold进一步延伸,最终得到scaffolds的数目为19,其中最小的scaffold长度为192bp,最长的scaffold长度为53813bp,scaffoldN50长度为38067bp。7、找到IR区域并进行拼接将最终得到的scaffold直接map到岩白菜的叶绿体基因组上,发现实际用上的只有前三个scaffold,找到中华金腰的IR区域,将其连接起来即可得到叶绿体基因组,并基于序列信息进行分析,构建出叶绿体基因组结构图,如图1所示。上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

权利要求:1.一种中华金腰叶绿体基因组结构图谱,其特征是,所述图谱如附图1所示。2.权利要求1所述的中华金腰叶绿体基因组结构图谱在开发中华金腰种质资源中的应用。3.一种组装金腰叶绿体基因组序列的方法,其特征在于,所述方法的步骤为:本发明提供的组装叶绿体基因组序列方法,具体步骤为:1.大致估计样品的大小,并利用Illumina技术对样品进行测序;2.将测序数据比对到叶绿体参考基因组上,提取比对上的数据;3.基于DeBruijin算法对叶绿体基因组进行组装,将序列打断成kmer长度,kmer值为21-127,选取其中组装最合适的kmer值;4.化简DeBruijin图后,在DeBruijin图或其子图中寻找一条最优的欧拉途径,该路径对应的碱基序列即为contigs;5.利用contigs之间的overlap关系,将其进一步连接形成scaffold;6.利用Illumina测序数据将scaffold进一步延伸;7.将上步得到的scaffold直接map到亲缘关系最近物种的叶绿体基因组上,找到叶绿体的四个区域——LSC、SSC、IRa、IRb,由于IRa与IRb为反向重复序列,可手动进行调整拼接得到完整的叶绿体基因组。4.权利要求3所述的叶绿体基因组序列的方法,其特征在于,所述步骤1为样品不需分离叶绿体,可直接对全基因组进行测序并获得完整图谱。5.权利要求3所述的叶绿体基因组序列的方法,其特征在于,所述步骤2为叶绿体参考基因组为近缘种的叶绿体全基因组。6.权利要求3所述的叶绿体基因组序列的方法,其特征在于,所述步骤3步骤3选取21-127其中所有奇数作为kmer值进行测试。7.权利要求3所述的叶绿体基因组序列的方法,其特征在于,所述步骤4为overlap关系是前一个contig的后几个序列与后一个contig的前几个序列相同或几乎相似,即可以将两个contig连接起来。8.权利要求3所述的金腰染色体制片方法,其特征在于,所述步骤6利用原始的数据作为参考序列,对scaffold进行延伸。9.权利要求3所述的金腰染色体制片方法,其特征在于,所述步骤为:1、估算样品大小并测序利用流式细胞术大致估算出金腰的基因组大小,然后对中华金腰的基因组进行提取,并利用Illumina公司的HiseqPE150测序进行测序,最终得到2.02G的数据量,然后对RawData进行去接头,质控,得到CleanData;2、比对并提取选取与中华金腰近缘物种岩白菜BergeniapurpurascensEngl.NC_036061.1Bergeniascopulosachloroplast,completegenome为叶绿体参考基因组,利用bwa软件将CleanData与岩白菜进行比对,再利用samtools将比对上的数据进行提取,此时大致从全基因组中分离出叶绿体数据;3、选取最合适的kmer值提取的文件最后为bam格式,利用bam2fastq软件将bam格式的文件转换为两个fastq格式。利用kmergenie软件进行21-127mer的kmer分析,由于叶绿体基因组中存在反向重复序列,故kmer图应呈现两个峰值,其中前一个峰值小,后一个峰值大,并且前一峰值的大小约为后一峰值的一半,从中选取组装最好的kmer值为81;4、进行组装利用ABYSS算法进行组装拼接,其结果为,ContigsNumber49、MinContigNumber81、MaxContigNumber20389ContigN507702;5、利用overlap进行连接利用Sequencher5.4.6软件将两个contig之间有overlap的进行连接,得到更长的scaffold;6、进一步scaffolding利用原始CleanData数据,通过SSPACE软件将scaffold进一步延伸,最终得到scaffolds的数目为19,其中最小的scaffold长度为192bp,最长的scaffold长度为53813bp,scaffoldN50长度为38067bp;7、找到IR区域并进行拼接将最终得到的scaffold直接map到岩白菜的叶绿体基因组上,发现实际用上的只有前三个scaffold,找到中华金腰的IR区域,将其连接起来即可得到叶绿体基因组,并基于序列信息进行分析,构建出叶绿体基因组结构图,如权利要求1中所示。10.权利要求3-8所述的方法在制备权利要求1所述的中华金腰叶绿体基因组结构图谱中的应用;或者权利要求3-8所述的方法在开发中华金腰种质资源中的应用。

百度查询: 中南民族大学 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。