买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种Illumina高通量测序数据误差校正方法_哈尔滨工程大学_201810601099.9 

申请/专利权人:哈尔滨工程大学

申请日:2018-06-12

公开(公告)日:2022-03-18

公开(公告)号:CN108959851B

主分类号:G16B30/10(20190101)

分类号:G16B30/10(20190101)

优先权:

专利状态码:有效-授权

法律状态:2022.03.18#授权;2019.01.01#实质审查的生效;2018.12.07#公开

摘要:本发明提供一种Illumina高通量测序数据误差校正方法,包括:1、对Illumina测序样本同时进行半导体测序。即在得到样本Illumina测序结果的同时,也获取其半导体测序结果;2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;3、对同一位置的测序结果进行分析。本发明针对该问题提出了一种Illumina高通量测序数据误差校正方法。该方法利用半导体高通量测序结果中碱基类型不易测错的特点,通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关系,实现Illumina高通量测序数据的误差校正。

主权项:1.一种Illumina高通量测序数据误差校正方法,其特征在于:步骤如下:步骤1、对Illumina测序样本同时进行半导体测序,得到样本Illumina测序结果的同时也获取其半导体测序结果;步骤2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;步骤3、对同一位置的测序结果进行如下判断:a.Illumina测序结果与参考基因组碱基序列相同,Illumina测序结果正确;b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:1半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;2半导体测序结果与参考基因组碱基序列相同,Illumina测序结果错误;3半导体测序结果与Illumina测序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。

全文数据:一种IIlumina高通量测序数据误差校正方法技术领域[0001]本发明涉及一种mumina高通量测序数据误差校正方法,属于分子生物信息检测领域。背景技术[0002]随着生物检测技术的迅猛发展,11111111;[118的301618、1^€63^611063的454和4131的SOLiD等第二代测序平台逐渐被新一代测序平台所取代。这包括mumina的MiSeq、NextSeq、HiSeq系列,ABI的IonTorrent、IonProton、IonPGM系列,以及OxfordNanoporeTechnologies的MinlON等。尽管新一代测序平台的推出使得生物信息检测的深度更深、成本更低、效率更高,但由于检测机理有所变化,原有高通量测序数据的解读方法将不得不作出相应改变。[0003]在新一代测序平台中,Illumina测序平台因测序深度更高、误差率更低等特点,已广泛应用于各种分子生物信息检测。但由于基于光的色差进行碱基类型识别,Illumina测序数据存在着一定的测序错误,其主要表现形式为碱基类型错误。这将导致Illumina测序结果与参考基因组碱基序列间出现差异。然而,由于个体不同,Illumina测序结果与参考基因组碱基序列间存在一定差异是正常的,而这些差异往往也是后续研究中重点关注对象。因此,如何区分Illumina测序结果与参考基因组碱基序列间的差异是真正的差异,还是Illumina测序错误导致的差异,非常重要。[0004]半导体高通量测序通过化学反应进行碱基类型识别,因此,其碱基类型不易测错。基于此,本发明创新性地提出通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关系,实现Illumina高通量测序数据的误差校正。发明内容[0005]本发明的目的是为了提供一种Illumina高通量测序数据误差校正方法,能够有效识别并去除该类测序平台测序数据中的测序错误。[0006]本发明的目的是这样实现的:步骤如下:[0007]步骤1、对Illumina测序样本同时进行半导体测序,得到样本Illumina测序结果的同时也获取其半导体测序结果;[000S]步骤2、分别将IIlumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;[0009]步骤3、对同一位置的测序结果进行如下判断:[0010]a.Illumina测序结果与参考基因组碱基序列相同,Illumina测序结果正确;[0011]b•Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:_12]1半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;[0013]2半导体测序结果与参考基因组碱基序列相同,Illumin^〖序结果错误;[0014]3半导体测序结果与lllumina测序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。[0015]与现有技术相比,本发明的有益效果是:作为新一代高通量测序技术,Illumina测序已广泛应用于各种分子生物信息检测。但该测序平台也存在一定的测序误差,其主要表现形式为碱基类型错误。本发明针对该问题提出了一种Illumina高通量测序数据误差校正方法。该方法利用半导体高通量测序结果中碱基类型不易测错的特点,通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关系,实现11lumina高通量测序数据的误差校正。附图说明[0016]图1是本发明的流程图;[0017]图2是Illumina测序数据中正确差异碱基的位置分布示意图;[0018]图3是Illumina测序数据中错误差异碱基的位置分布示意图。具体实施方式[0019]下面结合附图与具体实施方式对本发明作进一步详细描述。[0020]结合图1至图3,作为新一代高通量测序技术,Illumina测序己广泛应用于各种分子生物信息检测。但由于基于光的色差进行碱基类型识别,Illumina测序结果不可避免地存在一定的碱基类型测序错误。半导体高通量测序则通过化学反应进行碱基类型识别,其碱基类型不易测错。基于此,本发明创新性地提出一种Illumina高通量测序数据误差校正方法。该方法通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关系,实现IIlumina高通量测序数据的误差校正。[0021]本发明的方法包括以下步骤:[0022]1、对Illumina测序样本同时进行半导体测序。即在得到样本Illumina测序结果的同时,也获取其半导体测序结果;[0023]2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;[0024]3、对同一位置的测序结果进行如下逻辑分析:[0025]a.Illumina测序结果与参考基因组碱基序列相同,序结果正确;[0026]b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:[0027]1+导体测序结果与Illumina测序结果相同,Illumina测序结果正确;[0028]2+导体测序结果与参考基因组碱基序列相同,序结果错误;[0029]3半导体测序结果与Illumina测序结果和参考基因组碱基序列均不相同,IIlumina测序结果不定。[0030]4、实验验证[0031]我们对同一个人类实验样本分别进行了IIlumina测序和半导体I〇nTorrent测序。然后将两个平台的测序结果均通过序列比对确定每一测序读数在参考基因组中的位置。[0032]Ulumina测序数据总共有459狀77条测序读数,读数长度为10〇个碱基,其中,10〇7117个读数与参考基因组碱基序列相比含有丨个差异碱基。我们针对这1007117个差异碱基进行分析。利用我们提出的校正方法,共发现11597个碱基测序错误,占比L15%。[0033]我们将1007117个差异碱基分为测序正确和测序错误两类,并分别统计了二者在测序读数中的位置。由于差异碱基是否存在与测序读数本身无关,因而,测序正确的差异碱基在测序读数中的位置应符合均匀分布。而由于累计效应,测序错误的差异碱基更倾向于发生在测序读数的后部。图2,图3证实了这一点,也表明我们所提出的〗丨lumina高通量数据误差校正方法的有效性。

权利要求:1.一种Illumina高通量测序数据误差校正方法,其特征在于:步骤如下:步骤1、对Illumina测序样本同时进行半导体测序,得到样本Illumina测序结果的同时也获取其半导体测序结果;步骤2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;步骤3、对同一位置的测序结果进行如下判断:a.Illumina测序结果与参考基因组碱基序列相同,mumina测序结果正确;b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:1半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;2半导体测序结果与参考基因组碱基序列相同,Illumina测序结果错误;3半导体测序结果与序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。

百度查询: 哈尔滨工程大学 一种Illumina高通量测序数据误差校正方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。