买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种细菌ncRNA预测方法_武汉生命之美科技有限公司_201610412510.9 

申请/专利权人:武汉生命之美科技有限公司

申请日:2016-06-14

公开(公告)日:2021-07-02

公开(公告)号:CN107506614B

主分类号:G16B30/00(20190101)

分类号:G16B30/00(20190101);G16B25/10(20190101);G16B50/30(20190101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.02#授权;2018.01.19#实质审查的生效;2017.12.22#公开

摘要:本发明属于生物信息技术领域,尤其涉及利用Illumina二代测序获得的碱基片段结合PeakCalling方法进行细菌非编码RNA的分析预测方法。该方法包括剔除rRNA的细菌二代测序数据;获得数据后,对数据进行以下分析:先对数据进行去污染和去低质量分析,获得Cleanreads;然后将reads比对到细菌基因组上;进行转录单元的初步预测;过滤掉已注释的mRNA和ncRNA,获得预测的ncRNA;将ncRNA注释到已知的ncRNA数据库Rfam,获得最终的预测结果。本发明可以非常精确地预测细菌基因组中未注释的ncRNA,弥补了实验手段的不足,为后期的实验和科学研究提供很有利的支持。

主权项:1.一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤各组原始测序数据中的不合格数据,获得各个转录组的待分析数据;所述各组原始测序数据中的不合格数据包括:低质量的reads,其中所述低质量的reads包括序列中超过30%的碱基质量值低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;所述比对是使用bowtie或bowtie2软件进行的,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式;2利用bedtools的genomecov软件统计参考基因组中每个位置的比对深度,选择-d参数,对全基因组的比对深度进行定量分析;3根据比对深度,利用PeakCalling方法获得参考基因组中所有的转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:基因区域的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口Window,5bp为一个步长,连续两个窗口的中位深度小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来;基因间区Intergenicregion的peak的鉴定:首先通过发现一个窗口后面连续8个窗口的中位深度都是其中位深度的2.5倍确定一个峰的开始,5bp为一个窗口,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止;4获得转录单元后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置信息;其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置;5和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6对ncRNA进行启动子和终止子预测,启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,选择这样的ncRNA进行分析研究;7如果有多于1个样品,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表;8将合并后的ncRNA预测结果使用blastn方法,将ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得ncRNA的功能注释结果,使用blastn进行比对时,参数设置Evalue为1e-3,输出格式为制表符分割表格,其他选择默认参数。

全文数据:_种基于IIlumina的转录组测序数据和peakCalIing方法的细菌ncRNA预测方法技术领域[0001]本发明涉及生物信息技术领域,尤其涉及一种基于Illumina的转录组测序数据和PeakCal1ing方法的细菌ncRNA预测方法。背景技术[0002]2004年以来,二代测序技术以迅猛的速度发展起来,二代测序技术具有一次能并行对几十万到几百万条DNA分子进行序列测定,且读长较短的特点。其为科学和医学研究提供了很好的技术手段,在基因组组装以及基因表达等方面有很广泛的应用。[0003]2006年美国的Illumina公司提出了自主研发的基因组分析平台,测序的基本原理是边合成边测序。由于其对样品质量要求不高,而且具有高准确性、高通量、高灵敏度和低运行成本等突出优势,使其很快成为二代测序平台的一支重要力量。Illumina测序平台,每次可以获得几十Gb到上百Gb的数据量,而且在几天的时间里就可以完成测序和转格式的工作。所以Illumina高通量测序仪一直深受广大科研工作者和医务人员的喜爱,成为他们很得力的科研工具。[0004]随着越来越多的物种基因组测序工作的完成和完善,科研人员会更加关注转录调控和表观调控,其中基于RNA研宄的转录调控是人们研究的热点。RNA在生命过程中起到的作用也被越来越多的人重视。除了我们常说的编码蛋白的mRNA之外,非编码RNAn〇n-codingRNA,ncRNA的调控作用越来越凸显。在细菌中,ncRNA起到了重要的转录调控作用,它会和蛋白互作,引起翻译的活跃或抑制。因此我们需要对ncRNA给予更多的关注和研究。目前细菌ncRNA的预测往往采用实验手段,存在周期长,预测范围小等缺点。尽管近年来对于细菌ncRNA的预测,也采用高通量的数据,其中包含了生物信息学的方法,但比较依赖基因组的注释,如2011年的?隱8文章(1〇〇,八1^71166七1.2011,虽然也预测到了150个ncRNA,但其采用的是cluster方法,准确性会降低。[0005]PeakCal1ing方法,是一种找峰Peak的方法,随着二代测序技术的成熟,逐渐发展起来的一种获得特殊位点的分析方法。它将二代测序获得的碱基序列比对到参考序列上,通过计算机程序结合一定的统计模型,寻找出比对上序列丰度较大的位置,也就是所谓的Peak,获得Peak的过程和方法称之为PeakCal1ing。由于不受众多条件的限制,且容易修改和复制,使其能够进行多种数据的分析,如ChIP-Seq,RNA-Seq和RIP-Seq等。但迄今为止PeakCal1ing的方法还没有用于ncRNA的预测和分析。发明内容[0006]针对现有技术存在的问题,本发明的主要目的在于提供一种基于Illumina的转录组测序数据和PeakCal1ing方法的细菌ncRNA预测方法,包括:[0007]通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;[0008]过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据即cleanreads,它是原始测序数据经过过滤处理后留下的数据);[0009]对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:[0010]1将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;[0011]2利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;[0012]3根据比对深度,利用PeakCalling方法,获得参考基因组中所有的转录单元;[0013]4获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。[00M]5和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;[0015]6对ncRNA进行启动子和终止子预测,获得预测结果;[0016]7对超过1个样品的数据,可以将2到5个样品的ncRNA预测结果进行合并,获得合并后的ncRNA预测结果;[0017]8将最终的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。[0018]在本发明的一个实施例中,不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。[0019]在本发明的又一个实施例中,第一步分析中的比对是使用bowtie或bowtie2软件进行的。[0020]在本发明的又一个实施例中,利用所述的bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果。[0021]在本发明的又一个实施例中,利用bowtie2进行比对时,-N参数选择为1,采用一end-to-end比对模式,设置程序运行时的线程数为1〜16;设置输出文件类型为sam格式。[0022]在本发明的又一个实施例中,第二步分析使用bedtools的genomecov方法进行比对深度分析,选择_d参数。[0023]在本发明的又一个实施例中,第三步分析使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:[0024]基因区域Generegion的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window,5bp为一个步长step,连续两个窗口的中位深度mediumdepth小于已有注释基因区的最大深度的20%则停下来,如果己经到了下一个同向基因的边界则强制停下来。[0025]基因间区(Intergenicregion的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。[0026]在本发明的又一个实施例中,第四步的分析中,获得转录单元之后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。[0027]在本发明的又一个实施例中,第六步的分析中,需要对预测获得的ncRNA进行启动子Promoter和终止子Terminator预测,所使用的软件为:启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研宄中,优选这样的ncRNA进行分析研宄。[0028]在本发明的又一个实施例中,第七步的分析中,对于多个样品的预测结果,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。[0029]在本发明的又一个实施例中,第八步的分析中,使用blastn方法,将ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果。[0030]在本发明的又一个实施例中,使用blastn进行比对时,参数设置Evalue为le-3,输出格式为制表符分割表格,其他选择默认参数。[0031]目前细菌ncRNA的预测往往采用实验手段,如获得一个潜在ncRNA序列后,需要进行PCR扩增,以及用NorthernBlot验证,一个验证周期下来,要花费几个月的时间;而且,一次生化实验,往往只能锁定一个或几个ncRNA,效率不高;因此传统的方法具有周期长,预测范围小等缺点。采用11lumina二代测序技术,我们可以同时获得细菌所有RNA的转录情况,也就是所有的ncRNA都在我们获得的序列中,通过PeakCalling的数据分析方法,借助计算机和编程语言,可以在全基因组范围内快速预测细菌的ncRNA,并通过和已知数据库的比对,对ncRNA的功能进行注释,能很好弥补实验手段的不足,为后期的实验和科学研究提供很有利的支持。附图说明[0032]图1是本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图。[0033]图2:PeakCalling方法获得peak的示意图。[0034]图3:ncRNA预测结果的长度分布图。[0035]图4:ncRNA预测的展示图。[0036]图5:本发明预测得到的ncRNA数量和PNAS文献比较图。[㈤37]根据一组鼠疫耶尔森菌的数据,我们在3个样品中,共预测得到了405个ncRNA,远远多于PNAS文献中提到的15〇个ncRNA。[0038]图6:在鼠疫耶尔森菌的数据中预测的Pea]^p已知的ncRNA做交集分析。[0039]共有8个已知的ncRNA,在我们的获得的Peak中,有7个是被预测到的,说明预测的准确性是很高的。具体实施方式[0040]通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明,而不以任何方式限制本发明揭示的其余内容。[0041]除非另有说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为本发明的一部分。[0042]本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图见图1。[0043]【实施例1】获得所述各个转录组的待分析数据[0044]我们获得了一种鼠疫菌的转录组数据,具体物种信息为YersiniaPestis,共有2个转录组的数据:野生株和敲除株。对于其RNA,先剔除掉里面的rRNA,再进行建库,然后通过Illumina测序平台获取某此鼠疫菌的2组rRNA剔除的转录组的原始测序数据;[0045]获得转录组测序数据后,过滤所述各组原始测序数据中的不合格数据,不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。[0046]经过以上的数据处理步骤后,就获得了上述2个转录组的待分析数据(g卩Cleanreads,它是原始测序数据经过过滤处理后留下的数据),用于后续的ncRNA预测。[0047]【实施例2】Peakcalling方法预测鼠疫菌的ncRNA[OO48]使用PeakCalling方法获得Peak的示意图,见图2。[0049]1、将所述2个转录组的待分析数据分别比对到鼠疫菌的参考基因组;[0050]使用bowtie或bowtie2软件进行比对,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1〜16;设置输出文件类型为sam格式。[0051]2、获得比对结果后,利用bedtools的genomecov方法统计每个样品的参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析,选择_d参数。[0052]3、根据比对深度,对每个样品利用PeakCalling方法,获得参考基因组中所有的转录单元;[0053]利用Perl编程语言的脚本进行分析和筛选,标准如下:[0054]基因区域Generegion的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window,5bp为一个步长step,连续两个窗口的中位深度mediumdepth小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来。[0055]基因间区(Intergenicregion的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。[0056]4、获得转录单兀后,利用Perl脚本,统计每个转录单元的宽度,比对上的;reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。[0057]5、根据鼠疫菌的已知基因信息,将预测获得的转录单元和鼠疫菌已知的基因注释比较,获得新的ncRNA预测结果;[0058]获得对Peak的统计后,我们需要根据物种的己知基因注释信息,来去掉和已知基因重叠的peak,剩下的peak就是我们预测得到的ncRNA。图2展示了PeakCal1ing方法获得Peak的示意图,从图中可以看到,通过PeakCal1ing方法,共预测到3个Peak,其中左边和右边的Peak,和已知的基因是重合的,中间的一个Peak是没有基因注释的。图3展示了预测的ncRNA的长度分布统计,从图中可以看出,ncRNA长度在50到500之间,比较符合ncRNA的长度特征。图4是对预测的ncRNA的一个具体实例展示,中间红色的Peak就是一个预测的ncRNA,它和一个已知的mRNA是在相反的DNA链上,因此是一个反义的ncRNA。[0059]6、对ncRNA进行promoter和terminator预测,获得预测结果;[0060]需要对预测获得的ncRNA进行启动子Promoter和终止子Terminator预测,启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研宄中,优选这样的ncRNA进行分析研宄。[0061]7、不同样品的ncRNA预测结果进行合并,获得合并后的预测结果;[0062]对于多个样品的预测结果,如果来自同一个物种,可以对结果进行合并。本实例共有2个转录组样品,,因为是来自于同一个物种,因此会根据两个样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。[0063]在本实例关于鼠疫耶尔森氏菌的ncRNA预测的研究中,共获得了405个ncRNA,而之前的另一项其他团队的研宄,预测到了150个ncRNA,成果发表在PNAS杂志上,我们的预测数量要远远大于已发表的成果,见图5;将这405个预测的ncRNA和耶尔森氏菌已知的ncRNA进行了比较,发现8个己知的ncRNA中,有7个在的预测结果中,见图6,充分说明了本发明预测的准确性。8、使用blastn进行比对,参数设置Evalue为le-3,输出格式为制表符分割表格,其他选择默认参数,将最终的ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果。[0064]最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

权利要求:1.一种基于Illumina的转录组测序数据和PeakCaliing方法的细菌此顯六预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3根据比对深度,利用PeakCal1ing方法,获得参考基因组中所有的转录单元;4获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;5和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6对ncRNA进行启动子和终止子预测,获得预测结果;7如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;8将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。2.根据权利要求1所述的细菌ncRNA预测方法,其特征在于,所述各组原始测序数据中的不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。3.根据权利要求1或2所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第1步分析中的比对是使用bowtie或bowtie2软件进行的,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用一end-to-end比对模式,设置程序运行时的线程数为1〜16;设置输出文件类型为sam格式。4.根据权利要求3所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第2步分析中使用bedtools的genomecov方法进行比对深度分析,选择-d参数。5.根据权利要求4所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第3步分析中使用PeakCalling方法预测转录单元,利用perl编程语言的脚本进行分析和筛选,标准如下:基因区域Generegion的peak的鉴定:从全基因组每条DNA序列的开始,以20bpS—个窗口(Window,5bp为一个步长step,连续两个窗口的中位深度mediumdepth小于已有注释基因区的最大深度的2〇%则停下来,如果己经到了下一个同向基因的边界则强制停下来;基因间区(Intergenicregion的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。6.根据权利要求5所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第4步分析中获得转录单元之后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。7.根据权利要求6所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第6步分析中,需要对预测获得的ncRNA进行启动子Promoter和终止子Terminator预测,所使用的软件为:启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,优选这样的ncRNA进行分析研究。8.根据权利要求7所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第7步分析中,对于多个样品的预测结果,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。9.根据权利要求8所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第8步分析中,使用blastn方法,将ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果,使用blastn进行比对时,参数设置Evalue为le-3,输出格式为制表符分割表格,其他选择默认参数。

百度查询: 武汉生命之美科技有限公司 一种细菌ncRNA预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。