买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】使用无细胞DNA片段尺寸以确定拷贝数变异_维里纳塔健康公司_201680084307.1 

申请/专利权人:维里纳塔健康公司

申请日:2016-12-20

公开(公告)日:2021-04-27

公开(公告)号:CN108884491B

主分类号:C12Q1/6869(20180101)

分类号:C12Q1/6869(20180101);G16B40/00(20190101);G16B20/00(20190101);G16B30/00(20190101)

优先权:["20160203 US 62/290,891","20161216 US 15/382,508"]

专利状态码:有效-授权

法律状态:2021.04.27#授权;2019.03.01#实质审查的生效;2018.11.23#公开

摘要:公开了用于确定已知或疑似与多种医学病况相关的拷贝数变异CNV的方法。在一些实施方案中,提供了使用包含母体和胎儿无细胞DNA的母体样品来确定胎儿的拷贝数变异的方法。在一些实施方案中,提供了用于确定已知或疑似与各种医学病况相关的CNV的方法。本文公开的一些实施方案提供了通过推导片段尺寸参数来提高序列数据分析的灵敏度和或特异性的方法。在一些实施方式中,来自不同尺寸的片段的信息用于评估拷贝数变异。在一些实施方式中,从目标序列的覆盖率信息获得的一个或多个t‑统计量被用于评估拷贝数变异。在一些实施方式中,将一个或多个胎儿分数估值与一个或多个t‑统计量组合以确定拷贝数变异。

主权项:1.计算机可读介质,其上存储有计算机可执行的指令,所述指令当被计算机系统的一个或多个处理器执行时使所述计算机系统实施用于确定测试样品中的目标核酸序列的拷贝数变异CNV的操作,所述测试样品包含源自两个或更多个基因组的无细胞核酸片段,所述操作包括:a接收通过对所述测试样品中的所述无细胞核酸片段进行测序所获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c确定所述测试样品中存在的无细胞核酸片段的片段尺寸;d对于每个箱,通过以下计算所述参考基因组箱的序列标签的覆盖率:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素导致的箱间变异,将与所述箱比对的序列标签的数量归一化;e使用作为t-统计量的第一样品的所述目标序列中的箱覆盖率和作为t-统计量的第二样品的所述目标序列的参考区域中的箱覆盖率来确定所述目标序列的t-统计量;以及f使用从所述t-统计量计算的似然比和关于所述无细胞核酸片段尺寸的信息,确定所述目标序列中的拷贝数变异,其中所述操作包括进行d和e两次,一次用于第一尺寸域中的片段以及另一次用于第二尺寸域中的片段,由使用第一尺寸范围内的片段的序列标签的目标序列的第一t-统计量,以及使用第二尺寸范围内的片段的序列标签的目标序列的第二t-统计量来计算所述似然比,所述似然比包括第一t-统计量和第二t-统计量来自具有非整倍体假设的模型的概率以及第一t-统计量和第二t-统计量来自具有整倍体假设的模型的概率,以及所述第一尺寸范围包括所述测试样品中所有尺寸的无细胞核酸片段,并且所述第二尺寸范围仅包括小于限定尺寸的无细胞核酸片段。

全文数据:使用无细胞DNA片段尺寸以确定拷贝数变异[0001]相关申请的交叉引用[0002]本申请根据35U.S.C.§119e要求于2016年2月3日提交的题为:USINGCELL-FREEDNAFRAGMENTSIZETODETERMINECOPYNUMBERVARIATIONS的美国临时专利申请No.62290,891,以及2016年12月16日提交的题为:USINGCELL-FREEDNAFRAGMENTSIZETODETERMINECOPYNUMBERVARIATIONS的美国专利申请No.15382,508的权益,其出于所有目的通过引用整体并入本文。背景技术[0003]人类医学研究的关键努力之一是发现产生不良健康后果的遗传异常。在许多情况下,在基因组的以异常拷贝存在的部分中已鉴定出特定基因和或关键诊断标记物。例如,在产前诊断中,整个染色体的额外或缺失拷贝是经常发生的遗传病变。在癌症中,整个染色体或染色体区段的拷贝的缺失或倍增,以及基因组的特定区域的更高水平的扩增是常见的事件。[0004]关于拷贝数变异CNV的大部分信息都是通过允许识别结构异常的细胞遗传学解析所提供的。用于遗传筛选和生物剂量测定的常规方法利用侵入性方法,例如羊膜穿刺术、脐带穿刺术或绒毛膜绒毛取样CVS,以获得用于分析核型的细胞。认识到需要不需要细胞培养的更快速的测试方法,荧光原位杂交FISH、定量荧光PCRQF-PCR和阵列-比较基因组杂交阵列-CGH已被开发为分子-细胞遗传学方法以用于分析拷贝数变异。[0005]人类医学研究的关键努力之一是发现产生不良健康后果的遗传异常。在许多情况下,在基因组的以异常拷贝存在的部分中已鉴定出特定基因和或关键诊断标记物。例如,在产前诊断中,整个染色体的额外或缺失拷贝是经常发生的遗传病变。在癌症中,整个染色体或染色体区段的拷贝的缺失或倍增,以及基因组的特定区域的更高水平的扩增是常见的事件。[0006]关于拷贝数变异CNV的大部分信息都是通过允许识别结构异常的细胞遗传学解析所提供的。用于遗传筛选和生物剂量测定的常规方法利用侵入性方法,例如羊膜穿刺术、脐带穿刺术或绒毛膜绒毛取样CVS,以获得用于分析核型的细胞。认识到需要不需要细胞培养的更快速的测试方法,荧光原位杂交FISH、定量荧光PCRQF-PCR和阵列-比较基因组杂交阵列-CGH已被开发为分子-细胞遗传学方法以用于分析拷贝数变异。[0007]允许在相对短的时间内对整个基因组进行测序的技术的出现,以及循环的无细胞DNACfDNA的发现提供了将来自一条染色体的遗传物质与另一条染色体的遗传物质进行比较的机会而没有与侵入性采样方法相关的风险,这提供了一种工具来诊断目标遗传序列的各种拷贝数变异。[0008]非侵入性产前诊断中现有方法的局限性,包括源于有限水平的CfDNA的灵敏度不足,以及源于基因组信息固有性质的技术的测序偏差,这些是对提供任何或所有特异性、灵敏度和适用性以在各种临床环境中可靠地诊断拷贝数变化的非侵入性方法的持续需求的基础。已经显示胎儿CfDNA片段的平均长度短于孕妇血浆中的母体CfDNA片段。母体和胎儿cfDNA之间的这种差异在本文的实施方式中被利用以确定CNV和或胎儿分数。本文公开的实施方案满足了一些上述需求。一些实施方案可以用无PCR的文库制备物与成对的末端DNA测序结合实施。一些实施方案为非侵入性产前诊断和各种疾病的诊断提供高分析灵敏度和特异性。[0009]发明概述[0010]在一些实施方案中,提供了用于确定任何胎儿非整倍性的拷贝数变异CNV和已知或疑似与多种医学病况相关的CNV的方法。可以根据本方法确定的CNV包括1-22号染色体、X染色体和Y染色体中的任一个或多个的三体性和单体性、其它染色体多体性以及所述染色体中的任一个或多个的区段的缺失和或重复。在一些实施方案中,该方法涉及在测试样品中鉴定目标核酸序列如临床相关序列的CNV。该方法评估了特定目标序列的拷贝数变异。[0011]在一些实施方案中,该方法在计算机系统中实施,该计算机系统包括一个或多个处理器和系统存储器以评估包含一个或多个基因组的核酸的测试样品中的目标核酸序列的拷贝数。[0012]本公开的一方面涉及一种用于确定包括源自两个或更多个基因组的无细胞核酸片段的测试样品中的目标核酸序列的拷贝数变异CNV的方法。该方法包括:(a接收通过对测试样品中的无细胞核酸片段进行测序所获得的序列读取;(b将无细胞核酸片段的序列读取或含有序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中参考基因组被分为多个箱;(c确定测试样品中存在的至少一些无细胞核酸片段的片段尺寸;(d通过以下,对于每个箱,计算参考基因组箱的序列标签覆盖率:(i确定与箱比对的序列标签的数量,和(ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与箱比对的序列标签的数量归一化;(e使用目标序列中的箱覆盖率和目标序列的参考区域中的箱覆盖率来确定目标序列的t_统计量;以及f使用从t-统计量和关于无细胞核酸片段尺寸的信息所计算的似然比,确定目标序列中的拷贝数变异。[0013]在一些实施方式中,该方法包括执行d和e两次,对第一尺寸域中的片段执行一次并对第二尺寸域中的片段再执行一次。在一些实施方式中,第一尺寸域包括样品中基本上所有尺寸的无细胞核酸片段,并且第二尺寸域仅包括小于限定尺寸的无细胞核酸片段。在一些实施方式中,第二尺寸域仅包括小于约150bp的无细胞核酸片段。在一些实施方式中,由使用第一尺寸范围内的片段的序列标签的目标序列的第一t_统计量,以及使用第二尺寸范围内的片段的序列标签的目标序列的第二t-统计量,计算似然比。[0014]在一些实施方式中,将似然比计算为测试样品是非整倍体样品的第一似然性除以测试样品是整倍体样品的第二似然性。[0015]在一些实施方式中,除了t_统计量和关于无细胞核酸片段尺寸的信息之外,从胎儿分数的一个或多个值计算似然比。[0016]在一些实施方式中,胎儿分数的一个或多个值包括使用关于无细胞核酸片段尺寸的信息所计算的胎儿分数值。在一些实施方式中,通过以下,计算胎儿分数值:获得片段尺寸的频率分布;并且将频率分布应用于使胎儿分数与片段尺寸频率相关联的模型,以获得胎儿分数值。在一些实施方式中,将胎儿分数与片段尺寸频率相关联的模型包括具有对于多个片段尺寸的多个项和系数的一般线性模型。[0017]在一些实施方式中,胎儿分数的一个或多个值包括使用参考基因组的箱的覆盖率信息所计算的胎儿分数值。在一些实施方式中,通过以下,计算胎儿分数值:将多个箱的覆盖率值应用于使胎儿分数与箱的覆盖率相关联的模型,以获得胎儿分数值。在一些实施方式中,使胎儿分数与箱覆盖率相关联的模型包括具有对于多个箱的多个项和系数的一般线性模型。在一些实施方式中,多个箱在训练样品中具有胎儿分数和覆盖率之间的高度相关性。[0018]在一些实施方式中,胎儿分数的一个或多个值包括使用在读取中发现的多个8-聚体的频率所计算的胎儿分数值。在一些实施方式中,通过以下,计算胎儿分数值:将多个8-聚体的频率应用于使胎儿分数与8-聚体频率相关联的模型,以获得胎儿分数值。在一些实施方式中,使胎儿分数与8-聚体频率相关联的模型包括具有对于多个8-聚体的多个项和系数的一般线性模型。在一些实施方式中,多个8-聚体具有胎儿分数和8-聚体频率之间的高度相关性。[0019]在一些实施方式中,胎儿分数的一个或多个值包括使用性染色体箱的覆盖率信息所计算的胎儿分数值。[0020]在一些实施方式中,似然比是从胎儿分数、短片段的t_统计量和所有片段的t统计量所计算的,其中短片段是在小于标准尺寸的第一尺寸范围内的无细胞核酸片段,以及所有片段是包括短片段和长于标准尺寸的片段的无细胞核酸片段。在一些实施方式中,如下计算似然比:[0022]其中P1表示数据来自代表3拷贝或1拷贝模型的多元正态分布的似然性,Po表示数据来自代表2拷贝模型的多元正态分布的似然性,T短、T所有是由短片段和所有片段产生的染色体覆盖率所计算的T评分,以及qff@是胎儿分数的密度分布。[0023]在一些实施方式中,除了t_统计量和关于无细胞核酸片段尺寸的信息之外,从胎儿分数的一个或多个值计算似然比。[0024]在一些实施方式中,计算X单体、X三体、13三体、18三体或21三体的似然比。[0025]在一些实施方式中,将序列标签的数量归一化包括:针对样品的GC含量归一化、针对训练组的变异的全局波谱globalwaveprofile归一化,和或针对从主组分分析获得的一个或多个组分归一化。[0026]在一些实施方式中,目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。[0027]在一些实施方式中,参考区域是所有稳定染色体、不包含目标序列的稳定染色体、至少目标序列之外的染色体,和或选自稳定染色体的染色体亚组。在一些实施方式中,参考区域包括已被确定为一组训练样品提供最佳信号检测能力的稳定染色体。[0028]在一些实施方式中,该方法还包括:对于每个箱,计算箱的尺寸参数的值:(i由箱中无细胞核酸片段的尺寸确定尺寸参数的值,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将尺寸参数的值归一化。该方法还包括,使用目标序列中的箱的尺寸参数的值和目标序列的参考区域中的箱的尺寸参数的值来确定目标序列的基于尺寸的t_统计量。在一些实施方式中,由t-统计量和基于尺寸的t-统计量计算f的似然比。在一些实施方式中,由基于尺寸的t-统计量和胎儿分数计算f的似然比。[0029]在一些实施方式中,该方法还包括,将似然比与调用标准(callcriterion进行比较以确定目标序列中的拷贝数变异。在一些实施方式中,将似然比在与调用标准进行比较之前转换为log似然比。在一些实施方式中,通过将不同标准应用于训练样品的训练组并选择提供限定的灵敏度和限定的选择性的标准来获得调用标准。[0030]在一些实施方式中,该方法还包括,获得多个似然比并将多个似然比应用于决策树以确定样品的倍性情况。[0031]在一些实施方式中,该方法还包括,获得多个似然比和目标序列的一个或多个覆盖率值,并将多个似然比和目标序列的一个或多个覆盖率值应用于决策树以确定样品的倍性情况。[0032]本公开的另一方面涉及一种用于确定包括源自两个或更多个基因组的无细胞核酸片段的测试样品中的目标核酸序列的拷贝数变异CNV的方法。该方法包括:(a接收通过对测试样品中的无细胞核酸片段进行测序所获得的序列读取;(b将无细胞核酸片段的序列读取或含有序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中参考基因组被分为多个箱;(c通过以下,对于每个箱,计算参考基因组箱的序列标签的覆盖率:(i确定与箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与箱比对的序列标签的数量归一化。该方法还包括:(d使用目标序列中的箱覆盖率和目标序列的参考区域中的箱覆盖率来确定目标序列的t_统计量;(e估计测试样品中的无细胞核酸片段的一个或多个胎儿分数值;以及f使用t-统计量和一个或多个胎儿分数值,确定目标序列中的拷贝数变异。[0033]在一些实施方式中,(f包括从t_统计量和一个或多个胎儿分数值计算似然比。在一些实施方式中,计算X单体、X三体、13三体、18三体或21三体的似然比。[0034]在一些实施方式中,将序列标签的数量归一化包括:针对样品的GC含量归一化、针对训练组的变异的全局波谱归一化、和或针对从主组分分析获得的一个或多个组分归一化。[0035]在一些实施方式中,目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。[0036]本公开的另一方面涉及一种用于确定包括源自两个或更多个基因组的无细胞核酸片段的测试样品中的目标核酸序列的拷贝数变异CNV的方法。该方法包括:(a接收通过对测试样品中的无细胞核酸片段进行测序所获得的序列读取;(b将无细胞核酸片段的序列读取或含有序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中参考基因组被分为多个箱;(c确定测试样品中存在的无细胞核酸片段的片段尺寸〆d使用具有在第一尺寸域内的尺寸的无细胞核酸片段的序列标签,计算参数基因组的箱的序列标签的覆盖率;(e使用具有在第二尺寸域内的尺寸的无细胞核酸片段的序列标签,计算参数基因组的箱的序列标签的覆盖率,其中第二尺寸域不同于第一尺寸域;f使用(c中确定的片段尺寸计算参考基因组的箱的尺寸特征;以及g使用⑹和e中计算的覆盖率和f中计算的尺寸特征确定目标序列中的拷贝数变异。[0037]在一些实施方式中,第一尺寸域包括样品中基本上所有尺寸的无细胞核酸片段,并且第二尺寸域仅包括小于限定尺寸的无细胞核酸片段。在一些实施方式中,第二尺寸域仅包括小于约150bp的无细胞核酸片段。[0038]在一些实施方式中,目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。[0039]在一些实施方式中,(g包括使用在d和或e中计算的目标序列中的箱覆盖率来计算目标序列的t-统计量。在一些实施方式中,其中计算目标序列的t-统计量包括使用目标序列中的箱覆盖率和目标序列的参考区域中的箱覆盖率。[0040]在一些实施方式中,(g包括使用在f中计算的目标序列中的箱的尺寸特征来计算目标序列的t_统计量。在一些实施方式中,计算目标序列的t_统计量包括使用目标序列中的箱的尺寸特征和目标序列的参考区域中的箱的尺寸特征。[0041]在一些实施方式中,箱的尺寸特征包括尺寸小于限定值的片段与箱中总片段的比率。[0042]在一些实施方式中,(g包括从t_统计量计算似然比。[0043]在一些实施方式中,(g包括由使用⑹中所计算的覆盖率的目标序列的第一t_统计量,以及使用e中所计算的覆盖率的目标序列的第二t_统计量来计算似然比。[0044]在一些实施方式中,(g包括由使用⑹中所计算的覆盖率的目标序列的第一t_统计量、使用e中所计算的覆盖率的目标序列的第二t_统计量以及使用f中所计算的尺寸特征的目标序列的第三t_统计量来计算似然比。[0045]在一些实施方式中,除了至少第一和第二t_统计量之外,从胎儿分数的一个或多个值计算似然比。在一些实施方式中,该方法还包括使用关于无细胞核酸片段的尺寸的信息来计算胎儿分数的一个或多个值。[0046]在一些实施方式中,该方法还包括使用参考基因组的箱覆盖率信息来计算胎儿分数的一个或多个值。在一些实施方式中,胎儿分数的一个或多个值包括使用性染色体的箱覆盖率信息来计算的胎儿分数值。在一些实施方式中,计算X单体、X三体、13三体、18三体或21三体的似然比。[0047]在一些实施方式中,(d和或(e包括:(i确定与箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与箱比对的序列标签的数量归一化。在一些实施方式中,将序列标签的数量归一化包括:针对样品的GC含量归一化、针对训练组的变异的全局波谱归一化、和或针对从主组分分析获得的一个或多个组分归一化。[0048]在一些实施方式中,(f包括,对于每个箱,计算箱的尺寸参数的值:(i由箱中无细胞核酸片段的尺寸来确定尺寸参数的值,以及ii基于由于拷贝数变异以外的因素所导致的箱间变异,将尺寸参数的值归一化。[0049]本发明的另一方面涉及一种用于评估测试样品中目标核酸序列的拷贝数的系统,该系统包括:用于接收来自测试样品的核酸片段并提供测试样品的核酸序列信息的测序仪;处理器;和一个或多个计算机可读存储介质,其上存储有用于在所述处理器上执行的指令。该指令包括针对以下的指令:(a接收通过对测试样品中的无细胞核酸片段进行测序所获得的序列读取;(b将无细胞核酸片段的序列读取或含有序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中参考基因组被分为多个箱;c确定测试样品中存在的至少一些无细胞核酸片段的片段尺寸;以及d通过以下,对于每个箱,计算参考基因组箱的序列标签的覆盖率:(i确定与箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与箱比对的序列标签的数量归一化。该方法还包括:(e使用目标序列中的箱覆盖率和目标序列的参考区域中的箱覆盖率来确定目标序列的t_统计量;以及f使用从t-统计量和关于无细胞核酸片段尺寸的信息计算的似然比,确定目标序列中的拷贝数变异。[0050]在一些实施方式中,该系统被配置为执行上述方法中任一种。[0051]本公开的另一方面涉及一种计算机程序产品,其包括一个或多个计算机可读的非暂时性存储介质,其上存储有计算机可执行指令,所述指令当由计算机系统的一个或多个处理器执行时,使计算机系统实施上述方法中任一种。[0052]尽管本文的实施例涉及人类并且语言主要针对人类的关注点,但本文描述的概念适用于来自任何植物或动物的基因组。根据以下描述和所附权利要求,本公开的这些和其它目的和特征将变得更加明显,或者可以通过如下文所述的本公开的实践来了解。[0053]通过参考并入[0054]本文提及的所有专利、专利申请和其它出版物,包括在这些参考文献中公开的所有序列,通过引用明确地并入本文,其程度如同每个单独的出版物、专利或专利申请被明确地和单独地指出要通过引用并入一样。引用的所有文献在相关部分中通过引用整体并入本文,用于本文引用其的上下文中指出的目的。然而,任何文献的引用不应被解释为承认它是关于本公开的现有技术。[0055]附图简述[0056]图1是用于确定包含核酸混合物的测试样品中存在或缺失拷贝数变异的方法100的流程图。[0057]图2A主题性地说明了配对的末端测序如何可以用于确定片段尺寸和序列覆盖率。[0058]图2B显示了使用基于尺寸的覆盖率来确定测试样品中目标核酸序列的拷贝数变异的方法的流程图。[0059]图2C描绘了用于确定用于评估拷贝数的目标核酸序列的片段尺寸参数的方法的流程图。[0060]图2D显示了工作流程的两个重叠通路的流程图。[0061]图2E显示了用于评估拷贝数的三途径方法three-passprocess的流程图。[0062]图2F显示了将t-统计量应用于拷贝数分析以提高分析精确度的实施方式。[0063]图2G显示了根据本公开的一些实施方式的用于从覆盖率信息确定胎儿分数的示例方法。[0064]图2H显示了根据一些实施方式的用于根据尺寸分布信息确定胎儿分数的方法。[0065]图21显示了根据本公开的一些实施方式的用于从8-聚体频率信息确定胎儿分数的示例方法。[0066]图2J显示了用于处理序列读取信息的工作流程,其可用于获得胎儿分数估值。[0067]图3A显示了用于降低来自测试样品的序列数据中的噪声的方法的实例的流程图。[0068]图3B-3K呈现了在图3A中所述的方法的各个阶段获得的数据的分析。[0069]图4A显示了用于创建用于降低序列数据中的噪声的序列掩码的方法的流程图。[0070]图4B显不了MapQ评分与归一化覆盖量(normalizedcoveragequantities的CV具有强的单一相关性。[0071]图5是用于处理测试样品并最终进行诊断的分散系统的框图。[0072]图6示意性地说明了处理测试样品的不同操作可以如何被分组以由系统的不同元件处理。[0073]图7A和图7B显示根据实施例Ia图7A中描述的缩略方案和实施例Ib中描述的方案图7B制备的cfDNA测序文库的电泳图。[0074]图8显示了与标准实验室工作流程相比,新版NIPT的整体工作流程和时间线。[0075]图9显示了作为输入提取的CfDNA的函数的测序文库产量yield,其表明与文库浓度至输入浓度的强线性相关性,具有高转化效率。[0076]图10显示了如从具有男性胎儿的妊娠的324个样品测量的cfDNA片段尺寸分布。[0077]图11显示了来自定位的配对末端读取的总计数与来自小于150bp的配对末端读取的计数相比的相对胎儿分数。[0078]图12显示了用于检测21三体样品的以下各项的组合t-统计量非整倍性评分:(A所有片段的计数;⑻仅短片段340bpFan等人,ClinChem56:1279-1286[2010]。用标准二氧化硅基法从尿液中分离的DNA由两部分组成,即来自脱落细胞的高分子量DNA和经肾DNATr-DNA的低分子量150-250个碱基对)部分(Botezatu等人,ClinChenu46:1078-1084,2000;和Su等人,JMol.Diagn.6:101-107,2004。应用新开发的从体液中分离无细胞核酸到分离经肾核酸的技术,揭示了尿液中存在远短于150个碱基对的DNA和RNA片段(美国专利申请公开号20080139801。在其中cfDNA是经测序的基因组核酸的实施方案中,所选择的标记分子可以达到接近cfDNA的长度。例如,作为单个核酸分子或作为经克隆扩增的核酸进行测序的母体cfDNA样品中使用的标记分子的长度可以在约IOObp至600之间。在其它实施方案中,样品基因组核酸是更大分子的片段。例如,经测序的样品基因组核酸是片段化的细胞DNA。在实施方案中,当片段化的细胞DNA经测序时,标记分子的长度可以达到DNA片段的长度。在一些实施方案中,标记分子的长度至少是将序列读取唯一地定位至适当的参考基因组所需的最小长度。在其它实施方案中,标记分子的长度是排除标记分子被定位至样品参考基因组所需的最小长度。[0417]此外,标记分子可用于验证样品,所述样品不通过核酸测序进行测定并且可通过除测序之外的常用生物技术如实时PCR来验证。[0418]样品对照例如,用于测序和或分析的方法中阳性对照)。[0419]在各种实施方案中,如如上所述引入至样品中的标记序列可以起阳性对照的作用以验证测序以及随后的加工和分析的精确度和功效。[0420]因此,提供了用于为样品中的DNA进行测序而提供方法中阳性对照(IPC的组合物和方法。在某些实施方案中,提供了用于对包含基因组混合物的的样品中的CfDNA进行测序的阳性对照。IPC可以用于关联从不同的样品组如在不同的测序运行中在不同时间测序的样品)获得的序列信息中的基线偏移。因此,例如,IPC可以将针对母体测试样品获得的序列信息与从在不同时间测序的一组合格样品获得的序列信息相关联。[0421]类似地,在区段分析的情况下,IPC可以将从受试者获得的一个或多个特定区段的序列信息与从在不同时间测序的一组合格样品类似序列获得的序列相关联。在某些实施方案中,IPC可以将从受试者获得的特定癌症相关基因座的序列彳目息与从一组合格样品(例如,已知的扩增缺失等获得的序列信息相关联。[0422]此外,IPC可用作标记以通过测序方法跟踪一种或多种样品。IPC还可提供定性的阳性序列剂量值,如NCV,用于目标染色体的一个或多个非整倍性如,21三体、13三体、18三体),以提供正确的解释,并确保数据的可靠性和精确度。在某些实施方案中,可以创建IPC以包含来自男性和女性基因组的核酸,以提供母体样品中X染色体和Y染色体的剂量,以确定胎儿是否是男性。[0423]方法中对照的类型和数量取决于所需测试的类型或性质。例如,对于需要对包含基因组混合物的样品DNA进行测序以确定是否存在染色体非整倍性的测试,方法中对照可以包括从已知包含正在测试的相同染色体非整倍性的样品获得的DNA。在一些实施方案中,IPC包含来自已知包含目标染色体的非整倍性的样品的DNA。例如,用于确定母体样品中存在或缺失胎儿三体如21三体)的测试的IPC包含从具有21三体的个体获得的DNA。在一些实施方案中,IPC包含从两个或多个具有不同非整倍性的个体获得的DNA的混合物。例如,对于确定存在或缺失13三体、18三体、21三体和X单体的测试,IPC包含从各自携带胎儿的孕妇获得的DNA样品的组合,其中三体性中的一个被测试。除了完全染色体非整倍性之外,可以创建IPC以提供用于确定部分非整倍性的存在或缺失的测试的阳性对照。[0424]用作检测单一非整倍性的对照的IPC可以使用从两名受试者获得的细胞基因组DNA的混合物创建,其中一名受试者是非整倍体基因组的贡献者。例如,可以通过将携带三体染色体的男性或女性受试者的基因组DNA与已知不携带三体染色体的女性受试者的基因组DNA组合,来创建作为用于确定胎儿三体如,21三体)的测试的对照的IPC。基因组DNA可从两名受试者的细胞中提取,并剪切以提供约100_400bp、约150-350bp或约200-300bp的片段,以模拟母体样品中的循环cfDNA片段。选择来自携带非整倍性如21三体的受试者的片段化DNA的比例来模拟在母体样品中发现的循环胎儿CfDNA的比例,以提供包含片段化DNA的混合物的IPC,所述DNA的混合物包含来自携带非整倍性的受试者的DNA的约5%、约10%、约15%、约20%、约25%、约30%。IPC可以包含来自各自携带不同的非整倍性的不同受试者的DNA。例如,IPC可以包含约80%的未受影响的女性DNA,并且剩余的20%可以是来自各自携带21号染色体三体、13号染色体三体和18号染色体三体的三名不同受试者的DNA。制备片段化DNA的混合物用于测序。片段化DNA的混合物的加工可以包括制备测序文库,其可以使用任何大规模平行方法以单重或多重方式进行测序。基因组IPC的储存溶液可以储存并用于多种诊断性测试中。[0425]或者,可以使用从已知携带具有已知染色体非整倍性的胎儿的母亲获得的CfDNA来创建IPC。例如,CfDNA可以从携带有21三体的胎儿的孕妇获得。将CfDNA从母体样品中提取,并克隆到细菌载体中并在细菌中生长以提供IPC的持续来源。可以使用限制酶从细菌载体中提取DNA。或者,经克隆的cfDNA可以通过如PCR扩增。可以处理IPCDNA以用于在与待被分析染色体非整倍性的存在或缺失的测试样品的cfDNA相同的运行中进行测序。[0426]尽管上面关于三体性描述了IPC的创建,但是应当理解,可以创建IPC以反映其它部分非整倍性,包括例如各种区段扩增和或缺失。因此,例如,当已知各种癌症与特定的扩增相关联如,与20Q13相关的乳腺癌时,可以创建掺入那些已知的扩增的IPC。[0427]测序方法[0428]如上所指示,对所制备的样品(如,测序文库进行测序,作为用于鉴定一种或多种拷贝数变异的方法的一部分。可以使用许多测序技术中的任一种。[0429]一些测序技术可商购获得,诸如来自AffymetrixInc.Sunnyvale,CA的边杂交边测序平台,和来自454LifeSciencesBradford,CT、IlluminaSolexaHayward,CA和HelicosBiosciencesCambridge,MA的边合成边测序平台,及来自AppliedBiosystemsFosterCity,CA的边连接边平台,如下所述。除了使用HelicosBiosciences的边合成边测序进行的单分子测序之外,其它单分子测序技术包括但不限于PacificBiosciences的SMRT™技术,IONTORRENT™技术,以及由例如OxfordNanoporeTechnologies开发的纳米孔测序。[0430]虽然自动化桑格sanger方法被认为是〃第一代〃技术,但包括自动化桑格测序在内的桑格测序也可以用于本文所述的方法中。另外的适合的测序方法包括但不限于核酸成像技术,如原子力显微术AFM或透射电子显微术TEM。以下更详细地描述说明性测序技术。[0431]在一个说明性但非限制性的实施方案中,本文描述的方法包括使用IIlumina边合成边测序和基于可逆终止子的测序化学获得测试样品中的核酸如母体样品中的cfDNA、针对癌症进行筛选的受试者中的cfDNA或细胞DNA等)的序列信息(例如,如Bentley等人,Nature6:53-59[2009]中所述)。模板DNA可以是基因组DNA,如细胞DNA或cfDNA。在一些实施方案中,来自经分离的细胞的基因组DNA用作模板,并且将其片段化为数百个碱基对的长度。在其它实施方案中,cfDNA用作模板,并且片段化不是所需的,因为cfDNA作为短片段存在。例如胎儿cfDNA在血流中以长约170个碱基对bp的片段循环Fan等人,ClinChem56:1279-1286[2010],并且在测序之前不需要DNA片段化。Illumina的测序技术依赖于片段化的基因组DNA与光学透明平面的附接,所述平面上结合了寡核苷酸锚。模板DNA被末端修复以产生5’-磷酸化的平末端,并且Klenow片段的聚合酶活性用于将单个A碱基添加到平的磷酸化的DNA片段的3’末端。该添加制备DNA片段用于连接至寡核苷酸接头,其在3’末端具有单个T碱基的突出以提高连接效率。接头寡核苷酸与流动池锚定寡核苷酸互补在重复扩增的分析中不要与锚锚定的读取混淆)。在有限的稀释条件下,将接头修饰的单链模板DNA添加到流动池中并通过杂交固定到锚寡聚物。将附接的DNA片段延伸并桥接扩增以产生具有数亿个簇的超高密度测序流动池,每个簇含有相同模板的约1,〇〇〇个拷贝。在一个实施方案中,使用PCR扩增随机片段化的基因组DNA,之后使其进行簇扩增。或者,使用无扩增如,无PCR基因组文库制备,并仅使用簇扩增来富集随机片段化的基因组DNAKozarewa等人,NatureMethods6:291-295[2009]。将模板使用采用可逆终止子与可移除的荧光染料的稳定四色DNA边合成边测序技术测序。使用激光激发和全内反射光学器件实现高灵敏度荧光检测。将约数十至几百个碱基对的短序列读取与参考基因组比对,并使用专门开发的数据分析管道软件鉴定短序列读取与参考基因组的唯一定位。完成第一读取后,模板可以原位再生,以便从片段的另一端进行第二读取。因此,可以使用DNA片段的单末端或配对末端测序。[0432]本公开的各种实施方案可以使用边合成边测序,其允许配对末端测量。在一些实施方案中,Illumina的合成平台的测序涉及使片段聚类。聚类是一种其中每个片段分子被等温扩增的方法。在一些实施方案中,作为这里描述的实例,该片段具有两个不同的接头附接至该片段的两端,所述接头允许片段与流动池泳道表面上的两种不同的寡核苷酸杂交。该片段还包括或附接至该片段两端的两条索引序列,所述索引序列提供鉴定多路复用测序中的不同样本的标签。在一些测序平台中,待测序的片段还被称为插入物。[0433]在一些实施方式中,用于在Illumina平台中聚类的流动池是具有泳道的玻璃载玻片。每个泳道都是涂覆有两种类型的寡核苷酸坪的玻璃通道。杂交由表面上两种类型的寡核苷酸的第一种来实现。该寡核苷酸与片段一端的第一接头互补。聚合酶产生杂交的片段的补体链。使双链分子变性,并洗去原始模板链。剩余的链,与许多其它剩余的链平行,通过桥接应用克隆扩增。[0434]在桥接扩增中,链折叠,并且链的第二末端上的第二接头区域与流动池表面上的第二类的寡核苷酸杂交。聚合酶产生互补链,从而形成双链桥接分子。使这个双链分子变性,导致两个单链分子通过两种不同的寡核苷酸与流动池连接。然后该方法反复重复,并且对数百万个簇同时进行该方法,导致所有片段的克隆扩增。在桥接扩增后,反义链被裂解并洗掉,仅留下正义链。3’端被封闭以防止不需要的引发。[0435]在聚类之后,测序开始于延伸第一测序引物以产生第一读取。通过每个循环,荧光标记的核苷酸竞争添加至增长的链中。基于模板的序列仅掺入一个。在每个核苷酸添加后,簇被光源激发,并发射特征荧光信号。循环次数决定了读取的长度。发射波长和信号强度决定了碱基识别。对于给定的簇,同时读取所有相同的链。以大规模并行方式对数以亿计的簇进行测序。在第一读取完成时,洗掉读取产物。[0436]在涉及两个索引引物的方案的下一步中,将索引1引物引入并杂交至模板上的索弓丨1区域。索引区域提供片段的鉴定,这对于在多重测序方法中对样品进行解复用是有用的。类似于第一读取生成索引1读取。在完成索引1读取之后,洗掉读取产物并且将链的3’端去保护。然后模板链折叠并结合至流动池上的第二寡核苷酸。以与索引1相同的方式读取索弓丨2序列。然后,在步骤完成时洗掉索引2读取产物。[0437]在读取两个索引之后,读取2通过使用聚合酶启动以扩展第二流动池寡核苷酸,形成双链桥。使该双链DNA变性,并且封闭3’端。将原始正义链裂解开并洗掉,留下反义链。读取2以引段2测序引物的引入开始。与读取1一样,重复测序步骤直到达到所需的长度。将读取2产物洗掉。该整个方法产生了代表所有片段的数百万个读取。基于样品制备期间引入的独特索引分离来自汇集的样品文库的序列。对于每个样品,类似的碱基识别段的读取局部聚类。正向和反向读取配对,从而创建连续的序列。这些连续序列与参考基因组比对以进行变体鉴定。[0438]上述边合成边测序实例涉及配对末端读取,其用于所公开方法的许多实施方案中。配对末端测序涉及来自片段两端的2个读取。当一对读取被定位至参考序列时,可以确定两个读取之间的碱基对距离,然后可以使用该距离来确定从其获得读取的片段的长度。在一些情况下,跨越两个箱的片段将使其成对末端读取与一个箱比对,而另一个与相邻箱比对。随着箱变长或读取变短,这种情况变得越来越少。可以使用各种方法来解释这些片段的箱成员资格。例如,在确定箱的片段尺寸频率时可以省略它们;它们可以计入两个相邻的箱;它们可以被指定给涵盖两个箱的大量碱基对的箱;或者它们可以被指定给两个箱,其权重与每个箱中的碱基对的部分相关。[0439]配对末端读取可以使用不同长度的插入物(S卩,待测序的不同的片段尺寸)。作为本公开中的默认含义,配对末端读取用于指代从各种插入物长度获得的读取。在一些情况下,为了区分短插入物配对末端读取与长插入物配对末端读取,后者还被称为配偶配对读取。在涉及配偶配对读取的一个实施方案中,两个生物素接合接头首先附接至相对长插入物的两端如,数kb。然后生物素接合接头连接插入物的两端以形成环化分子。然后可以通过进一步片段化环化分子来获得涵盖生物素接合接头的子片段。然后,可以通过与上述短插入物配对末端测序相同的程序来对包括原始片段的两端的子片段以相反的序列顺序进行测序。使用Illumina平台的配偶配对测序的进一步细节在以下URL的在线出版物中示出,其通过弓I用整体并入:resl·Iilluminal·lcomdocumentsproductstechnotestechnote_nextera_matepair_data_processing。关于配对末端测序的另外信息可以见于美国专利No.7601499和美国专利公布No.20120,053,063,其关于配对末端测序方法和装置的材料通过引用并入。[0440]在对DNA片段进行测序之后,将预定长度如IOObp的序列读取定位或比对至已知的参考基因组。参考序列上的经定位或比对的读取及其相应的位置被称为标签。在一个实施方案中,参考基因组序列是NCBI36hgl8序列,其可在万维网上以8611〇1116.11〇83.6111〇区;[-binhgGateway?org=Humandb=hgl8hgsid=166260105获得。或者,参考基因组序列是GRCh37hgl9,其可以在万维网上以genome.Ucsc·educgi-binhgGateway获得。其它公开的序列信息源包括GenBank、dbEST、dbSTS、EMBL欧洲分子生物学实验室(theEuropeanMolecularBiologyLaboratory和DDBJ日本的DNA数据库(theDNADatabankofJapan。许多计算机算法可用于比对序列,包括但不限于BLASTAltschul等人,1990、BLITZMPsrchSturrockColIins,1993^FASTAPersonLipman,1988^BOffTIELangmead等人,GenomeBiology10:R25·1-R25·10[2009]或ELANDIIlumina,Inc·,SanDiego,CA,USA。在一个实施方案中,对血浆cfDNA分子的克隆扩增拷贝的一端进行测序并且通过Illumina基因组分析仪的生物信息学比对分析进行加工,其使用核苷酸数据库的高效大规模比对ELAND软件。[0441]在一个说明性但非限制性的实施方案中,本文描述的方法包括使用Helicos真单分子测序HelicosTrueSingleMoleculeSequencing,tSMS技术的单分子测序技术获得测试样品中核酸如母体样品中的cfDNA、针对癌症进行筛选的受试者中的cfDNA或细胞DNA等)的序列信息(如HarrisT.D.等人,Science320:106-109[2008]中所述)。在tSMS技术中,将DNA样品裂解成约100至200个核苷酸的链,并将聚腺苷酸序列添加至每条DNA链的3’端。将每条链通过添加荧光标记的腺苷核苷酸来标记。然后将DNA链杂交至流动池,所述流动池含有固定至流动池表面的数百万个寡-T捕获位点。在某些实施方案中,模板可以处于约1亿个模板cm2的密度。然后将流动池加载到仪器中,如HeliScope™测序仪,并且激光照射流动池的表面,揭示了每个模板的位置。CCD相机可以将模板的位置定位在流动池表面上。然后将模板荧光标记裂解并洗掉。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡-T核酸用作引物。聚合酶以模板指导的方式将经标记的核苷酸掺入引物中。去除聚合酶和未掺入的核苷酸。通过对流动池表面成像来识别已经指导掺入荧光标记的核苷酸的模板。成像后,裂解步骤去除荧光标记,并用其它荧光标记的核苷酸重复方法,直到达到所需的读取长度。用每个核苷酸添加步骤收集序列信息。通过单分子测序技术进行的全基因组测序在测序文库的制备中排除或通常避免基于PCR的扩增,并且该方法允许直接测量样品,而不是测量该样品的拷贝。[0442]在另一个说明性但非限制性的实施方案中,本文描述的方法包括使用454测序Roche获得测试样品中的核酸如母体测试样品中的cfDNA、筛选癌症的受试者中的cfDNA或细胞DNA等)的序列信息(例如,如Margulies,Μ·等人Nature437:376-380[2005]中所述)。454测序通常涉及两个步骤。在第一步中,将DNA剪切成约300-800个碱基对的片段,并且该片段是平末端的。然后将寡核苷酸接头连接到该片段的末端。接头用作片段的扩增和测序的引物。可以如使用含有5生物素标签的接头B将片段附接至DNA捕获珠粒,如链霉亲和素-涂覆的珠粒。附接至珠粒的片段在油-水乳液的液滴内进行PCR扩增。结果是每个珠粒上克隆扩增的DNA片段的多个拷贝。在第二步中,珠粒被捕获在孔中(如,皮升尺寸的孔)。对每个DNA片段并行进行焦磷酸测序。添加一个或多个核苷酸产生光信号,其由CCD照相机记录在测序仪器中。信号强度与掺入的核苷酸数成比例。焦磷酸测序利用焦磷酸盐PPi,其在核苷酸添加后释放。在腺苷5’磷酰硫酸盐存在下,PPi被ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素,并且这种反应产生的光被测量和分析。[0443]在另一个说明性但非限制性的实施方案中,本文描述的方法包括使用SOLiD™边连接边测序技术AppliedBiosystems获得测试样品中核酸如母体测试样品中的cfDNA、针对癌症进行筛选的受试者中的cfDNA或细胞DNA等)的序列信息。在SOLiD™边连接边测序中,将基因组DNA剪切成片段,并将接头附接至片段的5’和3’末端以产生片段文库。可替代地,内部接头可以通过以下步骤来引入:将接头连接至片段的5’和3’端,环化该片段、消化经环化的片段以产生内部接头,并附接接头至所得到的片段的5’和3’端以生成配偶配对文库。接下来,在含有珠粒、引物、模板和PCR组分的微反应器中制备克隆珠粒群。PCR后,使模板变性并富集珠粒以分离珠粒与经延伸的模板。所选珠粒上的模板经过允许键合至载玻片的3’修饰。该序列可以通过部分随机寡核苷酸与中心确定的碱基或碱基对的依序杂交和连接来确定,其由特定荧光团鉴定。记录颜色后,将连接的寡核苷酸裂解并去除,然后重复该方法。[0444]在另一个说明性但非限制性的实施方案中,本文描述的方法包括使用PacificBiosciences的单分子实时(SMRTtm测序技术获得测试样品中核酸(如母体测试样品中的CfDNA、针对癌症进行筛选的受试者中的CfDNA或细胞DNA等)的序列信息。在SMRT测序中,染料标记的核苷酸的连续掺入在DNA合成期间成像。单个DNA聚合酶分子附接至单个零模式波长检测器ZMW检测器)的底部表面,其获得序列信息同时磷酸连接的核苷酸被掺入生长的引物链中。ZMW检测器包括限制结构,该限制结构使得能够观察到针对荧光核苷酸本底的DNA聚合酶对单个核苷酸的掺入,所述荧光核苷酸在ZMff外快速扩散如,以微秒计)。将核苷酸掺入生长链中通常需要几毫秒。在此期间,荧光标记被激发并产生荧光信号,并且荧光标签被裂解掉。测量染料的相应荧光表明掺入了哪种碱基。重复该方法以提供序列。[0445]在另一个说明性但非限制性的实施方案中,本文描述的方法包括使用纳米孔测序获得测试样品中的核酸(如母体测试样品中的cfDNA、针对癌症进行筛选的受试者中的cfDNA或细胞DNA等)的序列信息(如如SoniGV和MellerA.ClinChem53:1996-2001[2007]中所述)。纳米孔测序DNA分析技术由许多公司开发,包括例如OxfordNanoporeTechnologiesOxford,UnitedKingdom、Sequenom、NABsys等。纳米孔测序是一种单分子测序技术,从而在单个DNA分子通过纳米孔时对其直接测序。纳米孔是小孔,通常直径为1纳米级。将纳米孔浸入导电流体中并在其上施加电势(电压导致由于离子通过纳米孔的传导而产生的轻微电流。流动的电流量对纳米孔的尺寸和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸都会阻塞纳米孔到不同程度,从而以不同程度改变通过纳米孔的电流大小。因此,当DNA分子通过纳米孔时,电流的这种变化提供了DNA序列的读取。[0446]在另一个说明性但非限制性的实施方案中,本文描述的方法包括使用化学敏感场效应晶体管chemFET阵列获得测试样品中的核酸如母体测试样品中的cfDNA、针对癌症进行筛选的受试者中的cfDNA或细胞DNA等)的序列信息(例如,如美国专利申请公布No.20090026082中所述)。在该技术的一个实例中,可以将DNA分子置于反应室中,并且模板分子可以与结合至聚合酶的测序引物杂交。在测序引物的3’端将一个或多个三磷酸盐掺入新的核酸链可以被chemFET鉴定为电流变化。阵列可以具有多个chemFET传感器。在另一个实例中,可以将单个核酸附接至珠粒,并且该核酸可以在珠粒上扩增,并且可以将各个珠粒转移至chemFET阵列上的各个反应室,其中每个室具有chemFET传感器,并且可以对该核酸进彳丁测序。[0447]在另一个实施方案中,本方法包括使用透射电子显微术TEM获得测试样品中的核酸(如母体测试样品中的cfDNA的序列信息。该方法称为单个分子放置快速纳米转移EVIPRNT,包括利用选择性地用重原子标记物标记的高分子量(150kb或更高DNA的单原子分辨率透射电子显微镜成像,并将这些分子以具有一致的碱基-至-碱基间距的超密集3nm链-至-链平行阵列的方式排列在超薄膜上。电子显微镜用于对膜上的分子成像以确定重原子标记物的位置并从DNA中提取碱基序列信息。该方法在PCT专利公开WO2009046445中进一步描述。该方法允许在小于十分钟内对全人基因组进行测序。[0448]在另一个实施方案中,DNA测序技术是IonTorrent单分子测序,它在半导体芯片上将半导体技术与简单的测序化学组合成一对,以直接将化学编码的信息A、C、G、T转换为数字信息(〇、1。实际上,当通过聚合酶将核苷酸掺入DNA链时,作为副产物释放出氢离子。IonTorrent使用高密度的微加工孔阵列以大规模并行方式执行这种生化方法。每个孔都持有不同的DNA分子。在孔下方是离子敏感层,并且在其下方是离子传感器。当将核苷酸例如C添加到DNA模板然后掺入DNA链中时,将释放氢离子。来自此离子的电荷将改变溶液的pH,这可以通过IonTorrent的离子传感器检测到。测序仪-基本上是世界上最小的固态PH计-识别碱基,直接从化学信息到数字信息。然后,离子个人基因组成机器PGM™测序仪依次用一个核苷酸接着另一个对芯片进行充满。如果充满芯片的下一个核苷酸不匹配,不会记录电压变化并且也不会识别碱基。如果DNA链上有两个相同的碱基,则电压将加倍,并且芯片将记录经识别的两个相同的碱基。直接检测允许以秒记录核苷酸掺入。[0449]在另一个实施方案中,本方法包括使用边杂交边测序获得测试样品中的核酸(如母体测试样品中的cfDNA的序列信息。边杂交边测序包括使多条多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一个可任选地束缚至基底。基底可以是包含已知核苷酸序列的阵列的平坦表面。阵列的杂交模式可用于确定样品中存在的多核苷酸序列。在其它实施方案中,每个探针都被束缚至珠粒,如磁珠等。可以确定与珠粒的杂交并将其用于鉴定样品中的多条多核苷酸序列。[0450]在本文所述的方法的一些实施方案中,经定位的序列标签包括序列约20bp、约25匕口、约3^口、约35口、约4^口、约45口、约5^口、约55口、约6^口、约65口、约7^口、约75口、约80bp、约85bp、约90bp、约95bp、约100bp、约llObp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的读取。预期技术进步将使大于500bp的单末端读取能够在生成配对末端读取时实现大于约IOOObp的读取。在一个实施方案中,经定位的序列标签包含36bp的序列读取。通过比较标签的序列与参考序列来实现序列标签的定位,以确定经测序的核酸如cfDNA分子的染色体来源,并且不需要特定的遗传序列信息。可以允许小程度的错配每个序列标签0-2个错配来解释参考基因组和混合样品中的基因组之间可能存在的微小多态性。[0451]通常获得每个样品的多个序列标签。在一些实施方案中,包含20至40bp如36bp的读取的至少约3XIO6个序列标签、至少约5XIO6个序列标签、至少约8XIO6个序列标签、至少约10XIO6个序列标签、至少约15XIO6个序列标签、至少约20XIO6个序列标签、至少约30XIO6个序列标签、至少约40XIO6个序列标签或至少约50XIO6个序列标签通过将读取定位至每样品的参考基因组获得。在一个实施方案中,将所有序列读取都定位至参考基因组的所有区域。在一个实施方案中,对已经定位至参考基因组的所有区域如所有染色体)的标签进行计数,并且确定混合DNA样品中的CNV,即目标序列的过度表现或表现不足,如染色体或其部分。该方法不需要在两个基因组之间进行分类。[0452]正确确定样品中存在或缺失CNV如,非整倍性所需的精确度是基于测序运行中样品之间定位至参考基因组的序列标签数量的变异染色体间变异性)以及在不同的测序运行中定位至参考基因组的序列标签的数量的变异测序间变异性进行预测的。例如,对于定位至富含GC或贫GC的参考序列的标签,变异可能特别明显。其它变异可以由使用不同的核酸提取和纯化方案、测序文库的制备以及不同测序平台的使用导致。本方法基于归一化序列(归一化染色体序列或归一化区段序列)的知识,使用序列剂量染色体剂量或区段剂量),以内在地解释来自染色体间运行内)和测序间运行间)的应计变异性和平台-依赖性变异性。染色体剂量基于归一化染色体序列的知识,其可以由单一染色体或者由选自1-22号染色体、X染色体和Y染色体的两种或更多种染色体组成。或者,归一化染色体序列可由单个染色体区段,或由一个染色体或两个或更多个染色体的两个或更多个区段组成。区段剂量基于归一化区段序列的知识,其可以由任一种染色体的单个区段,或由1-22号染色体、X染色体和Y染色体中的任两个或更多个的两个或更多个区段组成。[0453]CNV和产前诊断[0454]在母体血液中循环的无细胞胎儿DNA和RNA可用于越来越多的遗传病况的早期非侵入性产前诊断NIPD,两者用于妊娠管理和辅助生殖决策。已知在血流中循环的无细胞DNA的存在超过50年。最近,在妊娠期间在母体血流中发现了少量循环胎儿DNA的存在Lo等人,Lancet350:485-487[1997]。认为源于垂死的胎盘细胞,无细胞胎儿DNAcfDNA已被证明由通常长度小于200bp的短片段组成Chan等人,ClinChem50:88-92[2004],其早在妊娠4周就可以辨别出来(Illanes等人,EarlyHumanDev83:563-566[2007],并且已知在递送数小时内从母体血液循环中清除Lo等人,AmJHumGenet64:218_224[1999]。除了cfDNA之外,无细胞胎儿RNACfRNA的片段也可以在母体血流中辨别,源自胎儿或胎盘中转录的基因。来自母体血液样品的这些胎儿遗传元件的提取和随后分析为NIPD提供了新的机会。[0455]本方法是一种不依赖于多态性的方法,其用于NIPD中并且不需要将胎儿cfDNA与母体cfDNA区分开以能够确定胎儿非整倍性。在一些实施方案中,非整倍性是完全染色体三体或单体,或部分三体或单体。部分非整倍性是由染色体的一部分的丢失或增加引起的,并且涵盖由不平衡的易位、不平衡的倒置、缺失和插入引起的染色体不平衡。到目前为止,与生命相容的最常见的已知非整倍性是21三体,即唐氏综合征DownSyndrome,DS,其由21号染色体的部分或全部的存在引起。极少地,DS可能由遗传或偶发的缺陷引起,从而21号染色体的全部或部分的额外拷贝变得附着至另一种染色体通常是14号染色体)以形成单个的异常染色体。DS与智力障碍、严重的学习困难和因长期健康问题诸如心脏病)引起的死亡率过高相关。具有已知临床意义的其它非整倍性包括爱德华综合征Edwardsyndrome18三体和帕托综合征PatauSyndrome13三体),它们在生命的最初几个月内经常是致命的。与性染色体数量相关的异常也是已知的,并包括女性出生时的X单体如特纳综合征TurnersyndromeXO和三重X综合征(XXX以及男性出生时的克兰费尔特综合征KleinefelterSyndromeXXY和XYY综合征,其都与各种表型包括不育和智力技能降低有关。X单体[45,X]是早期妊娠丧失的常见原因,占自然流产的约7%。基于45,X也称为特纳综合征)的活产频率为1-210,000,估计不到1%的45,X受孕将存活到足月。约30%的特纳综合征患者镶嵌有45,X细胞系与46,XX细胞系或含有重排的X染色体的细胞系Hook和Warburton1983。考虑到高胚胎致死率,活产婴儿的表型相对温和,并且假设可能所有患有特纳综合征的活产女性携带含有两种性染色体的细胞系。X单体在女性中可以以45,X或45,X46XX存在,并且在男性可以以45,X46XY存在。人的常染色体单体通常被认为与生命不相容;然而,有相当多的细胞遗传学报告描述了活产儿童中一个21号染色体的完整单体VosranovaI等人,MolecularCytogen.1:13[2008];Joosten等人,PrenatalDiagn.17:271-5[1997]。本文描述的方法可用于在产前诊断这些和其它染色体异常。[0456]根据一些实施方案,本文公开的方法可以确定1-22号染色体、X染色体和Y染色体中的任一种的染色体三体的存在或缺失。可以根据本方法检测的染色体三体的实例包括但不限于21三体T21;唐氏综合征DownSyndrome、18三体T18;爱德华氏综合征Bdward’sSyndrome、三体16T16、三体20T20、三体22T22;猫眼综合征)、三体15T15;普瑞德威利综合征(PraderWilliSyndrome、13三体(T13;帕陶综合征(PatauSyndrome,三体8T8;Warkany综合征)、三体9和XXY克兰费尔特综合征)、XYY或XXX三体。以非镶嵌状态存在的其它常染色体的完整三体是致命的,但是当以镶嵌状态存在时可以与生命相容。应当理解,根据本文提供的教导,可以在胎儿cfDNA中确定各种完整的三体无论是以镶嵌或非镶嵌状态存在和部分三体。[0457]可以通过本方法确定的部分三体的非限制性实例包括但不限于,部分三体Iq32-44、三体9p、三体4镶嵌性、三体17p、部分三体4q26_qter、部分2p三体、部分三体Iq和或部分三体6p单体6q。[0458]本文公开的方法还可用于确定X染色体单体、21号染色体单体和部分单体,诸如单体13、单体15、单体16、单体21和单体22,它们已知参与妊娠流产。通常参与完全非整倍性的染色体的部分单体也可通过本文所述的方法确定。可以根据本方法确定的缺失综合征的非限制性实例包括由染色体的部分缺失引起的综合征。可以根据本文描述的方法确定的部分缺失的实例包括但不限于1号染色体、4号染色体、5号染色体、7号染色体、11号染色体、18号染色体、15号染色体、13号染色体、17号染色体、22号染色体和10号染色体的部分缺失,其描述于下文中。[0459]lq21.1缺失综合征或lq21.1复发性微缺失是1号染色体的罕见畸变。在缺失综合征旁边,还有lq21.1重复综合征。虽然在特定部位上缺失综合征丢失了一部分DNA,但在重复综合征的同一部位上有两个或三个拷贝的相似DNA部分。文献是指缺失和重复两者作为lq21.1拷贝-数目变异CNV。lq21.1缺失可与TAR综合征血小板减少症伴桡骨缺乏相关。[0460]沃夫-贺许宏氏综合征Wolf-Hirschhornsyndrome,WHS0MIN#194190是一种与染色体4pl6.3的半合子缺失有关的连续基因缺失综合征。沃夫-贺许宏氏综合征是一种先天性畸形综合征,其特征是出生前和出生后生长不足、不同程度的发育障碍、特征性颅面特征鼻子’希腊战士头盔’外观,高额头,突出的眉间,眼距过远,高拱眉,眼睛突出,内眦赘皮,短人中,嘴角向下的鲜明嘴和小颂畸形),以及癫痫症。[0461]5号染色体的部分缺失,也称为5p_或5p负,并命名为猫叫综合征CrisduChatsyndrome0MIN#123450,是由5号染色体的短臂p臂缺失5pl5.3-pl5.2引起的。患有这种病况的婴儿经常会听到像猫一样高亢的哭声。该病症的特征是智力残疾和发育迟缓、小头尺寸(小头畸形)、低出生体重以及婴儿期肌肉张力弱张力减退)、独特的面部特征和可能的心脏缺陷。[0462]威廉-博伊伦综合征Williams-BeurenSyndrome,也被称为染色体7qll·23缺失综合征0ΜΙΝ194050,是一种连续基因缺失综合征,导致由染色体7ql1.23上含有大约28个基因的1.5-1.8Mb的半合子缺失引起的多系统病症。[0463]雅各布森综合征JacobsenSyndrome,也被称为Ilq缺失病症,是一种罕见的先天性病症,由11号染色体的包含带llq24.1的末端区域的缺失引起。它可以导致智力障碍、独特的面部外观和各种身体问题,包括心脏缺陷和出血性病症。[0464]18号染色体的部分单体,称为单体18p,是一种罕见的染色体病症,其中18号染色体的全部或部分短臂P被缺失单体的)。该病症的特征通常为身材矮小、不同程度的精神发育迟滞、言语延迟、颅骨和面部颅面)区畸形和或另外的身体异常。相关的颅面缺陷在范围和严重程度上可能因病例而异。[0465]由15号染色体的结构或拷贝数变化引起的病况包括安格尔曼综合征AngelmanSyndrome和普瑞德-威利综合征Prader-WilliSyndrome,其涉及15号染色体的相同部分(15qll-ql3区域)中基因活性的丧失。应当理解,在载体亲本中几种易位和微缺失可以是无症状的,但是可以在后代中引起主要的遗传疾病。例如,携带15qll_ql3微缺失的健康母亲可以生下患有安格尔曼综合征的孩子,这是一种严重的神经退行性病症。因此,本文所述的方法、装置和系统可用于鉴定胎儿中的这种部分缺失和其它缺失。[0466]部分单体13q是一种罕见的染色体病症,其当13号染色体的长臂(q的一块丢失单体的)时产生。出生时有部分单体13q的婴儿可能表现出低出生体重、头部和面部颅面部畸形、骨骼异常特别是手和脚)以及其它身体异常。精神发育迟滞是这种病况的特征。出生时患有这种病症的个体中,婴儿期的死亡率很高。部分单体13q的几乎所有情况都是随机出现的,没有明显的原因(零星的)。[0467]史密斯-马吉利综合征(Smith-MagenissyndromeSMS-0MIM#182290是由17号染色体的一个拷贝上的缺失或遗传物质丢失引起的。这种众所周知的综合征与发育迟缓、精神发育迟滞、先天性异常诸如心脏和肾脏缺陷,以及神经行为异常诸如严重的睡眠障碍和自我伤害行为有关。史密斯-马吉利综合征(SMS在大多数情况下(90%由染色体17pll.2中的3.7-Mb中间缺失引起。[0468]22qll.2缺失综合征,也被称为迪乔治综合征DiGeorgeSyndrome,是一种由一小块的22号染色体缺失引起的综合征。缺失22qll.2发生在染色体对之一的长臂上的染色体的中间附近。这种综合征的特征即使在同一家庭的成员中差异很大,并影响身体的许多部分。特征性体征和症状可能包括出生缺陷诸如先天性心脏病,最常见的与闭合性神经肌肉问题腭咽闭合不全相关的腭缺陷,学习障碍,面部特征的轻微差异和复发性感染有关。染色体区域22qll.2中的微缺失与精神分裂症的风险增加20至30倍相关。[0469]10号染色体短臂上的缺失与迪乔治综合征样表型有关。染色体IOp的部分单体是罕见的,但已经在显示迪乔治综合征特征的一部分患者中观察到。[0470]在一个实施方案中,本文描述的方法、装置和系统用于确定部分单体,包括但不限于1号染色体、4号染色体、5号染色体、7号染色体、11号染色体、18号染色体、15号染色体、13号染色体、17号染色体、22号染色体和10号染色体的部分单体,如部分单体lq21.11、部分单体4pl6.3、部分单体5pl5.3_pl5.2、部分单体7qll.23、部分单体llq24.1、部分单体18p、染色体15的部分单体(15qll_ql3、部分单体13q、部分单体17pll.2、22号染色体的部分单体22qll.2和部分单体IOp也可以使用该方法确定。[0471]可以根据本文描述的方法确定的其它部分单体包括不平衡易位t8;11p23.2;?15.5;11923微缺失;17?11.2缺失;22913.3缺失;1?22.3微缺失;10?14缺失;20?微缺失,[del22ql1.2ql1.23]、7ql1.23和7q36缺失;1ρ36缺失;2p微缺失;神经纤维瘤病1型17ql1.2微缺失),Yq缺失;4pl6.3微缺失;1ρ36.2微缺失;Ilql4缺失;19ql3.2微缺失;鲁宾斯坦-泰比(Rubinstein-Taybi16pl3.3微缺失);7p21微缺失;米勒-狄克综合征Miller-Diekersyndrome17pl3.3;和2q37微缺失。部分缺失可以是染色体的一部分的小缺失,或者它们可以是其中可以发生单个基因缺失的染色体的微缺失。[0472]已经鉴定了由染色体臂的部分重复引起的几种重复综合征(参见OMIN[在线人孟德尔遗传,在网址11313;[.1111]1.11;[11.80¥01]1;[1]1查看]。在一个实施方案中,本方法可用于确定1-22号染色体、X染色体和Y染色体中的任一个的区段的重复和或倍增的存在或不存在。可根据本方法确定的重复综合征的非限制性实例包括8号染色体、15号染色体、12号染色体和17号染色体的部分的重复,其在下面描述。[0473]8p23.1重复综合征是一种由人8号染色体区域重复引起的罕见遗传性病症。这种重复综合征的估计患病率为64,000例出生中的1例,并且是8p23.1缺失综合征的倒数。8p23.1重复与可变表型相关,包括言语延迟、发育迟缓、轻度畸形、具有突出的前额和弓形眉毛以及先天性心脏病CHD中的一种或多种。[0474]染色体15q重复综合征Dupl5q是一种由染色体15qll_13.1的复制引起的临床可鉴定的综合征。具有Dupl5q的婴儿通常有肌张力减退肌张力差)、生长迟缓;他们可能出生时就具有唇裂和或腭裂或心脏、肾脏或其它器官的畸形;他们表现出一定程度的认知延迟残疾精神发育迟滞)、言语和语言延迟以及感觉处理障碍。[0475]帕里斯特-吉利恩综合征PallisterKilliansyndrome是额外的#12染色体材料的结果。通常存在细胞的混合物镶嵌性),有些具有额外的#12材料并且有些是正常的46种染色体,没有额外的#12材料)。患有这种综合征的婴儿存在许多问题,包括严重的精神发育迟滞、肌肉张力差、〃粗糙〃的面部特征和突出的前额。他们往往有非常薄的上唇、下唇较厚并且鼻子较短。其它健康问题包括癫痫发作、喂养不良、关节僵硬、成年期白内障,听力丧失和心脏缺陷。患有帕里斯特-吉利恩的人寿命缩短。[0476]患有指定为dup17pll.2pll.2或dupl7p的遗传病况的个体在17号染色体的短臂上携带额外的遗传信息称为复制)。染色体17pll.2的重复是波托茨基-鲁普斯基综合征Potocki-Lupskisyndrome,PTLS的基础,这是一种新发现的遗传病况,在医学文献中仅报道了数十例病例。具有这种重复的患者通常具有低肌肉张力、不良喂养和在婴儿期期间不能茁壮成长,并且还表现出运动和言语阶段的延迟发育。许多患有PTLS的个体都难以进行清晰发音和语言处理。此外,患者可能具有与自闭症或自闭症谱系障碍患者相似的行为特征。患有PTLS的个体可能有心脏缺陷和睡眠呼吸暂停。已知染色体17p12中包含基因PMP22的大区域的重复会引起沙尔科-玛刚-图思Charcot-MarieToothdisease。[0477]CNV与死胎有关。然而,由于常规细胞遗传学的固有局限性,CNV对死胎的贡献被认为不足Harris等人,PrenatalDiagn31:932_944[2011]。如实施例中所示和本文其它地方所述,本方法能够确定染色体区段的部分非整倍性如,缺失和倍增的存在,并且可用于鉴定和确定存在或不存在与死产有关的CNV。[0478]临床病症的CNV的测定[0479]除了出生缺陷的早期确定之外,本文描述的方法可以应用于确定基因组内遗传序列的表现中的任何异常。基因组内遗传序列的表现的许多异常与各种病理有关。此类病理包括但不限于癌症、传染病和自身免疫性疾病、神经系统疾病、代谢和或心血管疾病等。[0480]因此,在各种实施方案中,预期在诊断和或监测和或治疗此类病理中使用本文所述的方法。例如,可应用该方法以确定疾病的存在或缺失,监测疾病的进展和或治疗方案的功效,以及确定病原体如病毒的核酸的存在或缺失;确定与移植物抗宿主病GVHD相关的染色体异常,并确定个体在法医分析中的贡献。[0481]癌症中的CNV[0482]已经表明,来自癌症患者的血浆和血清DNA含有可测量的量的肿瘤DNA,可以被回收并用作肿瘤DNA的替代来源,并且肿瘤的特征在于非整倍性,或者基因序列或甚至整个染色体的不适当数量。因此,在来自个体的样品中确定给定序列(即目标序列)的量的差异可以用于医学病况的预后或诊断。在一些实施方案中,本方法可用于确定疑似或已知患有癌症的患者中染色体非整倍性的存在或不存在。[0483]本文的一些实施方式提供了基于循环CfDNA样品,使用样品的浅测序和配对末端方法并且使用可从配对末端读取获得的片段尺寸信息来鉴定在正常细胞的本底中存在来自癌细胞的差异性甲基化的凋亡DNA,来检测癌症、跟踪治疗性响应和最小残留疾病的方法。已显示,在一些癌症中,肿瘤来源的CfDNA比非肿瘤来源的CfDNA短。因此,本文所述的基于尺寸的方法可用于确定包括与这些癌症相关的非整倍性在内的CNV,使得能够a检测筛选或诊断性设置中存在的肿瘤;(b监测对疗法的响应;(c监测最小残留疾病。[0484]在某些实施方案中,非整倍性是受试者的基因组的特征,并且导致癌症易感性通常增加。在某些实施方案中,非整倍性是特定细胞如肿瘤细胞、原肿瘤赘生性细胞等的特征,其是瘤形成或具有增加的瘤形成易感性。如下所述,特定的非整倍性与特定癌症或对特定癌症的易感性有关。在一些实施方案中,可以使用非常浅的配对末端测序方法以成本有效的方式检测监测癌症存在。[0485]因此,本文所述的方法的各种实施方案提供了对来自受试者的测试样品中的目标序列如一条或多条临床相关序列的)的拷贝数变异的确定,其中拷贝数中的某些变异提供了癌症的存在和或易感性的指标。在某些实施方案中,该样品包含来源于两种或更多种类型的细胞的核酸的混合物。在一个实施方案中,核酸的混合物来源于源于患有医学病况如癌症的受试者的正常和癌细胞。[0486]癌症的发展通常伴随着由被称为染色体不稳定性CIN的方法引起的整个染色体数目的改变即完全染色体非整倍性和或染色体区段数的改变即部分非整倍性)(Thoma等人,SwissMedWeekly2011:141:wl3170。据信许多实体瘤,诸如乳腺癌,通过几种遗传畸变的积累从起始进展到转移。[Sato等人,CancerRes.,50:7184_7189[1990];Jongsma等人JClinPathol:MolPath55:305-309[2002]]。此类遗传畸变,因为它们积累,可以赋予增殖优势、遗传不稳定性和伴随的快速进化耐药性的能力,以及增强的血管形成、蛋白水解和转移。遗传畸变可能影响隐性"肿瘤抑制基因"或主要作用致癌基因。据信导致杂合性缺失LOH的缺失和重组通过揭示突变的肿瘤抑制子等位基因而在肿瘤进展中起主要作用。[0487]CfDNA已在被诊断患有恶性肿瘤的患者的循环中被发现,包括但不限于肺癌Pathak等人ClinChem52:1833-1842[2006]、前列腺癌(Schwartzenbach等人ClinCancerRes15:1032-8[2009]和乳腺癌(Schwartzenbach等人,可在breast-cancer-research.comcontentll5R71[2009]在线获得)。可以在癌症患者的循环cfDNA中确定的与癌症相关的基因组不稳定性的鉴定是潜在的诊断性和预后工具。在一个实施方案中,本文描述的方法用于确定样品中一条或多条目标序列的CNV,如包含来源于疑似或已知患有癌症如癌、肉瘤、淋巴瘤、白血病、生殖细胞肿瘤和胚细胞瘤)的受试者的核酸混合物的样品。在一个实施方案中,该样品是从外周血来源加工的血浆样品,其可包含来源于正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中,确定CNV是否存在所需的生物样品来源于如果存在癌症则包含来自其它生物组织的癌细胞和非癌细胞的混合物的细胞,所述其它生物组织包括但不限于生物流体诸如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴液、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫腔灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物及白细胞去除法样品,或在组织活检、拭子或涂片中。在其它实施方案中,生物样品是粪便排泄物样品。[0488]本文描述的方法不限于CfDNA的分析。应该认识到,可以对细胞DNA样品进行类似的分析。[0489]在各种实施方案中,一条或多条目标序列包含一条或多条已知或疑似在癌症的发展和或进展中起作用的核酸序列。目标序列的实例包括染色体的核酸序列,如完全染色体和或区段,其如下所述在癌细胞中被扩增或缺失。[0490]CNV总数和癌症风险。[0491]常见的癌症SNP以及类似的常见癌症CNV可能各自仅赋予疾病风险的轻微增加。然而,它们可能共同导致癌症风险显著增加。在这方面,值得注意的是,大DNA区段的种系增加和丢失已被报道为使个体易患神经母细胞瘤、前列腺癌和结直肠癌、乳腺癌和BRCAl相关卵巢癌的因素(参见,如,Krepischi等人BreastCancerRes·,14:R24[2012];Diskin等人Nature2009,459:987_991;Liu等人CancerRes2009,69:2176_2179;Lucito等人CancerBiolTher2007,6:1592-1599;Thean等人GenesChromosomesCancer2010,49:99-106;Venkatachalam等人IntJCancer2011,129:1635-1642;和Yoshihara等人GenesChromosomesCancer2011,50:167-177。值得注意的是,经常在健康群体中发现的CNV常见的CNV被认为在癌症病因学中起作用(参见,如,Shlien和Malkin2009GenomeMedicineJ6:62。在一项测试了常见CNV与恶性肿瘤相关的假设的研究(Shlien等人ProcNatlAcadSciUSA2008,105:11264-11269中,创建了每个已知CNV的图谱,其基因座与真正的癌症相关基因的基因座一致(如由Higgins等人NucleicAcidsRes2007,35:D721-726分类)。这些被称为〃癌症CNV〃。在初始分析Shlien等人ProcNatlAcadSciUSA2008,105:11264-11269中,使用具有5·8kb的平均探针间距离的Affymetrix500K阵列组评估770个健康基因组。由于CNV通常被认为在基因区域被耗竭Redon等人(2006Nature2006,444:444-454,令人惊讶的是在大型参考群体中,在一个以上的人中发现49种直接被CNV涵盖或重叠的癌症基因。在前十种基因中,可以在四个或更多个人中发现癌症CNV。[0492]因此认为CNV频率可用作癌症风险的度量(参见,如,美国专利公布N〇:20100261183A1XNV频率可以简单地通过生物体的组成型基因组确定,或者它可以代表来源于一个或多个肿瘤赘生性细胞的部分如果存在的话)。[0493]在某些实施方案中,测试样品(如,包含构成性种系)核酸的样品)或核酸混合物如,来源于赘生性细胞的一种或多种种系核酸)中的许多CNV使用本文所述的用于拷贝数变异的方法确定。在测试样品中鉴定例如与参考值比较增加的数目的CNV,指示受试者中癌症的风险或易感性。应当理解,参考值可以随给定的群体而变化。还应当理解,CNV频率增加的绝对值将根据用于确定CNV频率和其它参数的方法的分辨率而变化。通常,确定CNV频率增加至少约为参考值的1.2倍,以指示癌症的风险(参见,如,美国专利公布No:20100261183Al,例如CNV频率增加至少或约为参考值的1.5倍或更大,诸如参考值的2-4倍是癌症风险增加的指标如,与正常健康参考群体相比)。[0494]还认为确定与参考值相比哺乳动物的基因组中的结构变异指示癌症的风险。在该上下文中,在一个实施方案中,术语"结构变异"可被定义为哺乳动物中的CNV频率乘以哺乳动物中的平均CNV尺寸(以bp计)。因此,由于CNV频率增加和或由于大量基因组核酸缺失或重复的发生而导致高结构变异评分。因此,在某些实施方案中,使用本文所述的方法确定测试样品(如包含构成性种系)核酸的样品)中的许多CNV以确定拷贝数变异的尺寸和数量。在某些实施方案中,基因组DNA内的总结构变异评分大于约1兆碱基、或大于约1.1兆碱基、或大于约1.2兆碱基、或大于约1.3兆碱基、或大于约1.4兆碱基、或大于约1.5兆碱基、或大于约1.8兆碱基、或大于约2兆碱基的DNA指示癌症的风险。[0495]据信这些方法可以任何癌症的风险的量度,包括但不限于急性和慢性白血病,淋巴瘤,间充质或上皮组织、脑、乳房、肝、胃的许多实体瘤,结肠癌,B细胞淋巴瘤,肺癌,支气管癌,结直肠癌,前列腺癌,乳腺癌,胰腺癌,胃癌,卵巢癌,膀胱癌,脑或中枢神经系统癌,周围神经系统癌症,食道癌,子宫颈癌,黑素瘤,子宫或子宫内膜癌,口腔癌或咽癌,肝癌,肾癌,胆道癌,小肠癌或阑尾癌,唾液腺癌,甲状腺癌,肾上腺癌,骨肉瘤,软骨肉瘤,脂肪肉瘤,睾丸癌及恶性纤维组织细胞瘤和其它癌症。[0496]完整染色体非整倍性。[0497]如上所述,癌症中存在高频率的非整倍性。在检查癌症中的体细胞拷贝数改变SCNA流行的某些研究中,已发现典型癌细胞的基因组的四分之一受到非整倍性的全臂SCNA或全染色体SCNA的影响(参见,如Beroukhim等人Nature463:899-905[2010]。在数种癌症类型中反复观察到全染色体改变。例如,在10-20%的急性髓性白血病AML以及一些实体瘤包括尤因氏肉瘤Bwing’sSarcoma和硬纤维瘤病例中可以看到8号染色体的获得(参见,如Barnard等人Leukemia10:5-12[1996];Maurici等人CancerGenet·Cytogenet.100:106-110[1998];Qi等人CancerGenet·Cytogenet·92:147-149[1996];Barnard,D.R.等人Blood100:427-434[2002];等。表2中显示了人类癌症中染色体获得和丧失的说明性但非限制性的列表。[0498]表2.人类癌症中说明性、特异性、复发性染色体获得和丧失参见,如Gordon等人2012NatureRev.Genetics.l3:189_203〇[0500][0501]在某些实施方案中,本文所述的方法可用于检测和或定量与一般癌症相关的和或与特定癌症相关的全染色体非整倍性。因此,例如,在某些实施方案中,考虑了检测和或定量特征在于表2中所示的获得或丧失的全染色体非整倍性。[0502]臂水平染色体区段拷贝数变异。[0503]多项研究报道了大量癌症标本中臂水平拷贝数变异的模式Lin等人CancerRes68,664-6732008;George等人PLoSONE2,e2552007;Demichelis等人GenesChromosomesCancer48:366-3802009;Beroukhim等人Nature.4637283:899-905[2010]。另外,观察到臂水平拷贝数变异的频率随着染色体臂的长度而减小。根据这一趋势进行调整后,大多数染色体组展现出在多种癌症谱系中优先获得或丧失的强有力证据,但很少见到这两种情况参见,如Beroukhim等人Nature.4637283:899-905[2010]。[0504]因此,在一个实施方案中,本文所述的方法用于确定样品中的臂水平CNV包括一个染色体臂或基本上一个染色体臂的CNVXNV可以在包含构成性种系)核酸的测试样品中的CNV中测定,并且臂水平CNV可以在那些构成性核酸中鉴定。在某些实施方案中,在包含核酸混合物如,来源于正常细胞的核酸和来源于肿瘤细胞的核酸)的样品中鉴定如果存在)臂水平CNV。在某些实施方案中,该样品来源于疑似或已知患有癌症(如癌、肉瘤、淋巴瘤、白血病、生殖细胞肿瘤、胚细胞瘤等)的受试者。在一个实施方案中,该样品是从外周血来源加工)的血浆样品,其可包含来源于正常细胞和癌细胞的CfDNA的混合物。在另一个实施方案中,用于确定CNV是否存在的生物样品来源于细胞,如果存在癌症,则包含来自其它生物组织的癌细胞和非癌细胞的混合物,所述生物组织包括但不限于生物流体诸如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴液、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫腔灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物及白细胞去除法样品,或在组织活检、拭子或涂片中。在其它实施方案中,生物样品是粪便排泄物样品。[0505]在各种实施方案中,被鉴定为指示癌症存在或癌症风险增加的CNV包括但不限于表3中列出的臂水平CNV。如表3中所示,某些CNV包含大量的臂水平获得,其表明存在癌症或某些癌症的风险增加。因此,例如,Iq的获得指示急性成淋巴细胞性白血病ALL、乳腺癌、GIST、HCC、肺NSC、成神经管细胞瘤、黑素瘤、MPD、卵巢癌和或前列腺癌。3q的获得指示食管鳞状细胞癌、肺SC和或MPD存在或增加的风险。7q的获得指示结直肠癌、神经胶质瘤、HCC、肺NSC、成神经管细胞瘤、黑素瘤、前列腺癌和或肾癌的存在或增加的风险。7p的获得指示乳腺癌、结直肠癌、食管腺癌、神经胶质瘤、HCC、肺NSC、成神经管细胞瘤、黑素瘤和或肾癌的存在或增加的风险。20q的获得指示乳腺癌、结直肠癌、去分化脂肪肉瘤、食管腺癌、食管鳞状细胞癌、胶质瘤癌、HCC、肺NSC、黑素瘤、卵巢癌和或肾癌的存在或增加的风险,等。[0506]类似于表3中所示,包含显著的臂水平丧失的某些CNV指示某些癌症的存在和或增加的风险。因此,例如,Ip的丧失指示胃肠道基质瘤的存在或增加的风险。4q的丧失指示结直肠癌、食管腺癌、肺sc、黑素瘤、卵巢癌和或肾癌的存在或增加的风险,17p的丧失指示乳腺癌、结直肠癌、食管腺癌、HCC、肺NSC、肺SC和或卵巢癌存在或增加的风险,等。[0507]表3.16种癌症亚型乳腺癌、结直肠癌、去分化的脂肪肉瘤、食管腺癌、食管鳞状细胞癌、GIST胃肠道基质瘤)、神经胶质瘤、HCC肝细胞癌)、肺NSC、肺SC、成神经管细胞瘤、黑素瘤、MPDCt髓增殖性疾病)、卵巢癌、前列腺癌、急性成淋巴细胞性白血病ALL和肾癌)中的每一种的显著性臂水平染色体区段拷贝数改变参见,如Beroukhim等人Nature20104637283:899-905。[0511]臂水平拷贝数变异之间关联的实例旨在说明而非限制。其它臂水平拷贝数变异和它们的癌症关联性是本领域技术人员已知的。[0512]较小的,如局部focal,拷贝数变异。[0513]如上所指示,在某些实施方案中,本文所述的方法可用于确定染色体扩增的存在或缺失。在一些实施方案中,染色体扩增是一个或多个完整染色体的获得。在其它实施方案中,染色体扩增是染色体的一个或多个区段的获得。在其它实施方案中,染色体扩增是两个或更多个染色体的两个或更多个区段的获得。在某些实施方案中,染色体扩增可以涉及一种或多种致癌基因的获得。[0514]与人实体瘤相关的显性作用基因通常通过过表达或改变的表达发挥其作用。基因扩增是导致基因表达上调的常见机制。来自细胞遗传学研究的证据表明,超过50%的人乳腺癌发生了显著的扩增。最值得注意的是,位于17号染色体(1717q21-q22上的原癌基因人表皮生长因子受体2HER2的扩增导致细胞表面上HER2受体的过表达,导致乳腺癌和其它恶性肿瘤中过多和失调的信号传导(Park等人,ClinicalBreastCancer8:392-401[2008]。已发现多种致癌基因在其它人类恶性肿瘤中被扩增。人肿瘤中的细胞致癌基因扩增的实例包括以下的扩增:早幼粒细胞白血病细胞系HL60和小细胞肺癌细胞系中的c-myc,原代神经母细胞瘤III期和IV期)、神经母细胞瘤细胞系、前列腺癌细胞系和原发性肿瘤以及小细胞肺癌细胞系和肿瘤中的N-myc,小细胞肺癌细胞系和肿瘤中的L-myc,急性髓性白血病和结肠癌细胞系中的c-myb,表皮样癌细胞和原发性神经胶质瘤中的c-erbb,肺、结肠、膀胱和直肠的原发癌中的cK-ras-2,乳腺癌细胞系中的N-rasVarmusH.,AnnRevGenetics18:553-6121984[引用于Watson等人,MolecularBiologyoftheGene第41¾;BenjaminCummingsPublishingCo.1987中]。[0515]致癌基因的重复是许多类型癌症的常见原因,如P70-S6激酶1扩增和乳腺癌的情况。在此类情况下,遗传重复发生在体细胞中,并且仅影响癌细胞本身的基因组,而不影响整个生物体,更不用说任何随后的后代。在人癌症中扩增的致癌基因的其它实例包括乳腺癌中的MYC、ERBB2EFGR、CCND1细胞周期蛋白Dl、FGFR1和FGFR2,子宫颈癌中的MYC和ERBB2,结直肠癌中的HRAS、KRAS和MYB,食道癌中的MYC、CCND1和MDM2,胃癌中的CCNE、KRAS和MET,成胶质细胞瘤中的ERBB1和CDK4,头颈癌中的CCNDl、ERBBl和MYC,肝细胞癌中的CCNDl,神经母细胞瘤中的MYCB,卵巢癌中的MYC、ERBB2和AKT2,肉瘤中的MDM2和⑶K4,及小细胞肺癌中的MYC。在一个实施方案中,本方法可用于确定与癌症相关的致癌基因的扩增的存在或不存在。在一些实施方案中,经扩增的致癌基因与乳腺癌、子宫颈癌、结直肠癌、食道癌、胃癌、成胶质细胞瘤、头颈癌、肝细胞癌、神经母细胞瘤、卵巢癌、肉瘤和小细胞肺癌有关。[0516]在一个实施方案中,本方法可用于确定染色体缺失的存在或缺失。在一些实施方案中,染色体缺失是一种或多种全染色体的丢失。在其它实施方案中,染色体缺失是染色体的一个或多个区段的丢失。在其它实施方案中,染色体缺失是两个或更多个染色体的两个或更多个区段的丢失。染色体缺失可能涉及一种或多种肿瘤抑制子基因的丢失。[0517]涉及肿瘤抑制基因的染色体缺失被认为在实体瘤的发展和进展中起重要作用。前列腺癌肿瘤抑制基因(Rb-I位于13号染色体ql4中,是最广泛表征的肿瘤抑制基因。Rb-I基因产物,105kDa核磷蛋白,明显地在细胞周期调控中起重要作用(Howe等人,ProcNatlAcadSciUSA87:5883-5887[1990]。此蛋白的表达改变或丢失是通过点突变或染色体缺失由两个基因等位基因的失活引起的。已经发现Rb-i基因改变不仅存在于前列腺癌中,而且存在于其它恶性肿瘤诸如骨肉瘤、小细胞肺癌®ygaard等人,CancerRes50:5312-5317[1990]和乳腺癌中。限制性片段长度多态性RFLP研究表明,这种肿瘤类型在13q处经常失去杂合性,这表明Rb-I基因等位基因中的一个因总染色体缺失而丢失Gkiwcock等人,AmJHumGenet,46:12[1990]a号染色体异常,包括重复、缺失和涉及6号染色体和其它伴侣染色体的不平衡易位,表明1号染色体的区域,特别是Iq21_lq32和lpll-13,可能具有与骨髓增殖性赘生物的慢性和晚期致病性相关的致癌基因或肿瘤抑制基因(Caramazza等人,EurJHematol84:191-200[2010]。骨髓增殖性赘生物也与5号染色体的缺失有关。5号染色体的完全丢失或中间缺失是骨髓增生异常综合征MDS中最常见的核型异常。孤立的del5q5q_MDS患者比具有另外的核型缺陷的患者具有更好的预后,这些患者倾向于发展骨髓增殖性赘生物MPN和急性髓性白血病。不平衡的5号染色体缺失的频率已经导致5q具有一个或多个肿瘤抑制子基因的想法,这些基因在造血干祖细胞HSCHPC的生长控制中具有基本作用。以5q31和5q32为中心的常见缺失区域CDR的细胞遗传学定位鉴定了候选肿瘤抑制子基因,包括核糖体亚基RPS14、转录因子EgrlKrox20和细胞骨架重构蛋白、α-连环蛋白(Eisenmann等人,Oncogene28:3429-3441[2009]。新鲜肿瘤和肿瘤细胞系的细胞遗传学和等位基因分型研究表明,染色体3p上几个不同区域的等位基因丢失,包括3p25、3?21-22、3?21.3、3?12-13和3?14,是最早和最频繁的基因组异常,其参与广泛的肺、乳房、肾脏、头颈部、卵巢、子宫颈、结肠、胰腺、食管、膀胱和其它器官的主要上皮癌。几种肿瘤抑制基因已被定位至染色体3p区域,并且认为中间缺失或启动子超甲基化在癌症发展过程中3p或整个3号染色体的丢失之前AngeloniD.,BriefingsFunctionalGenomics6:19-39[2007]〇[0518]患有唐氏综合征DS的新生儿和儿童经常出现先天性短暂性白血病,并且患急性髓性白血病和急性成淋巴细胞性白血病的风险增加。含有约300个基因的21号染色体可能参与白血病、淋巴瘤和实体瘤中的许多结构畸变,如易位、缺失和扩增。此外,已经鉴定出位于21号染色体上的基因在肿瘤发生中起重要作用。体细胞数畸变以及结构21号染色体畸变与白血病相关,并且位于21q的特定基因(包括RUNX1、TMPRSS2和TFF在肿瘤发生中起作用FonatschCGeneChromosomesCancer49:497-508[2010]〇[0519]鉴于前述内容,在各种实施方案中,本文描述的方法可用于确定已知包含一种或多种原癌基因或肿瘤抑制基因和或已知与癌症或癌症风险增加相关的区段CNV。在某些实施方案中,可以在包含构成性种系核酸的测试样品中测定CNV,并且可以在那些构成性核酸中鉴定区段。在某些实施方案中,在包含核酸如,来源于正常细胞的核酸和来源于赘生性细胞的核酸)的混合物的样品中鉴定区段CNV如果存在)。在某些实施方案中,该样品来源于疑似或已知患有癌症如癌、肉瘤、淋巴瘤、白血病、生殖细胞肿瘤、胚细胞瘤等)的受试者。在一个实施方案中,该样品是从外周血来源加工的血浆样品,其可包含来源于正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中,用于确定CNV是否存在的生物样品来源于细胞,如果癌症存在,则其包含来自其它生物组织的癌细胞和非癌细胞的混合物,所述生物组织包括但不限于生物流体诸如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴液、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫腔灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物及白细胞去除法样品,或在组织活检、拭子或涂片中。在其它实施方案中,生物样品是粪便排泄物样品。[0520]用于确定癌症存在和或癌症风险增加的CNV可包括扩增或缺失。[0521]在各种实施方案中,被鉴定为指示癌症存在或癌症风险增加的CNV包括表4中所示的一种或多种扩增。[0522]表4.特征在于与癌症相关的扩增的说明性但非限制性的染色体区段。列出的癌症类型是Beroukhim等人Nature18:463:899-905中鉴定的那些。[0527]在某些实施方案中,与上文本文所述的扩增组合,或单独地,被鉴定为指示癌症存在或癌症风险增加的CNV包括表5所示的一种或多种缺失。[0528]表5.特征在于与癌症相关的缺失的说明性但非限制性的染色体区段。列出的癌症类型是Beroukhim等人Nature18:463:899-905中鉴定的那些D[0534]被鉴定为各种癌症特征的非整倍性如表4和5中鉴定的非整倍性可含有已知与癌症病因有关的基因(如肿瘤抑制基因、致癌基因等)。这些非整倍性也可以被探测,以鉴定相关但以前未知的基因。[0535]例如,Beroukhim等人,同上,使用GRAILGeneRelationshipsAmongImplicatedL0C120评估了拷贝数改变中的潜在致癌基因,该算法搜索基因组区域之间的功能性关系。GRAIL根据引用所述基因的所有论文的已发表摘要之间的文本相似性,基于一些靶基因将在共同途径中起作用的概念,对基因组区域集合中的每个基因就其与其它区域中基因的’相关性’进行评分。这些方法允许鉴定表征先前与所讨论的特定癌症无关的基因。表6说明已知在鉴定的扩增区段和预测基因内的靶基因,并且表7说明已知在已鉴定的缺失区段和预测基因内的靶基因。[0536]表6.已知或预测存在于以各种癌症中的扩增为特征的区域中的说明性但非限制性的染色体区段和基因(参见,如Beroukhim等人,同上)。[0541]表7.已知或预测存在于以各种癌症中的扩增为特征的区域中的示例性但非限制性的染色体区段和基因(参见,如Beroukhim等人,同上)。[0547]在某些实施方案中,考虑使用本文鉴定的方法鉴定包含表6中鉴定的扩增区域或基因的区段的CNV,和或使用本文鉴定的方法鉴定包含表7中鉴定的缺失区域或基因的区段的CNV。[0548]在一个实施方案中,本文描述的方法提供了评估基因扩增和肿瘤进化程度之间的关联性的手段。扩增和或缺失与癌症分期或分级之间的相关性可能具有预后重要性,因为这种信息可能有助于定义基于遗传的肿瘤分级,从而更好地预测未来病程,其中更晚期的肿瘤具有最差的预后。此外,关于早期扩增和或缺失事件的信息可用于将这些事件与后续疾病进展的预测因子相关联。[0549]如通过该方法鉴定的基因扩增和缺失可以与其它已知的参数相关联,诸如肿瘤分级、组织学、BrdUrd标记指数、激素状态、淋巴结受累、肿瘤尺寸、存活持续时间和其它可从流行病学和生物统计学研究获得的肿瘤性质。例如,待通过该方法测试的肿瘤DNA可包括非典型增生、原位导管癌、I-III期癌症和转移性淋巴结,以便允许鉴定扩增和缺失与分期之间的关联性。所建立的关联性可能使有效的治疗性干预成为可能。例如,始终扩增的区域可能含有经过表达的基因,其产物可能能够受到治疗性影响(例如,生长因子受体酪氨酸激酶、p285HER2。[0550]在某些实施方案中,本文所述的方法可用于通过确定来自原发性癌症的核酸序列的拷贝数变异与转移至其它位点的细胞的那些拷贝数变异来鉴定与耐药性相关的扩增和或缺失事件。如果基因扩增和或缺失是允许耐药性快速发展的核型不稳定性表现,则预期来自化学抗性患者的原发性肿瘤中的扩增和或缺失比化学敏感性患者中的肿瘤中的更多。例如,如果特定基因的扩增导致耐药性的发展,那么围绕那些基因的区域将预期在来自化学抗性患者的胸膜积液的肿瘤细胞中始终扩增,但在原发性肿瘤中则不然。发现基因扩增和或缺失与耐药性发展之间的关联性可以允许鉴定将会或不会从辅助疗法中受益的患者。[0551]以与确定在母体样品中的完整和或部分胎儿染色体非整倍性的存在或缺失的方式类似的方式,可以使用本文所述的方法、装置和系统来确定在包含核酸如DNA或cfDNA的任何患者样品包括不是母体样品的患者样品)中存在或缺失完整和或部分染色体非整倍性。患者样品可以是如本文其它地方所述的任何生物样品类型。优选地,通过非侵入性程序获得样品。例如,该样品可以是血液样品,或其血清和血浆级分。或者,该样品可以是尿液样品或粪便样品。在其它实施方案中,样品是组织活检样品。在所有情况下,该样品包含核酸如cfDNA或基因组DNA,其经纯化并且使用先前描述的任何NGS测序方法测序。[0552]可以根据本方法确定与形成相关的完全和部分染色体非整倍性和癌症的进展。[0553]在某些实施方案中,当使用本文所述的方法来确定癌症的存在和或增加的风险时,可以针对确定CNV的一个或多个染色体进行数据的归一化。在某些实施方案中,可以针对确定CNV的一个或多个染色体臂进行数据的归一化。在某些实施方案中,可以针对确定CNV的一个或多个特定区段进行数据的归一化。[0554]除了CNV在癌症中的作用之外,CNV还与越来越多的常见复杂疾病相关,包括人类免疫缺陷病毒HIV、自身免疫性疾病和一系列神经精神病症。[0555]传染性和自身免疫性疾病中的CNV[0556]迄今为止,许多研究报道了参与炎症和免疫响应和HIV、克罗恩氏病(Crohn’sdisease和其它自身免疫性病症的基因中的CNV之间的关联性(FanciulIi等人,ClinGenet77:201-213[2010]。例如,CCL3L1中的CNV参与HIVAIDS易感性CCL3L1,17qll·2缺失)、类风湿性关节炎(CCL3L1,17qll·2缺失)和川崎病(KawasakidiseaseCCL3L1,17qll.2重复有关;HBD-2中的CNV已报道对慢性克罗恩氏病HDB-2,8p23.1缺失和银肩病〇108-2,8?23.1缺失)易感;?061?38中的01^显示对全身性红斑狼疮中的肾小球性肾炎FCGR3B,lq23缺失,lq23重复),抗嗜中性粒细胞胞浆抗体ANCA-相关的血管炎FCGR3B,lq23缺失)易感并且增加发展类风湿性关节炎的风险。至少有两种已经显示与不同基因座处的CNV相关的炎症或自身免疫性疾病。例如,克罗恩氏病与HDB-2处的低拷贝数相关,但也与编码P47免疫相关GTP酶家族成员的IGRM基因上游的常见缺失多态性相关。除了与FCGR3B拷贝数的关联性之外,SLE易感性据报道在补体组分C4的拷贝数较低的受试者之间显著增加。[0557]在许多独立研究中已经报道了在GSTMlGSTMl,lq23缺失)和GSTTlGSTT1,22ql1.2缺失基因座的基因组缺失的与特应性哮喘的风险增加之间的关联性。在一些实施方案中,本文描述的方法可用于确定与炎症和或自身免疫性疾病相关的CNV的存在或缺失。例如,该方法可用于确定疑似患有HIV、哮喘或克罗恩氏病的患者中的CNV的存在。与此类疾病相关的CNV的实例包括但不限于17ql1.2、8p23.1、lq23和22ql1.2处的缺失,以及17qll.2和lq23处的复制。在一些实施方案中,本方法可用于确定CNV在基因中的存在,所述基因包括但不限于CCL3L1、HBD-2、FCGR3B、GSTM、GSTT1、C^PIRGM。[0558]神经系统的CNV疾病[0559]在自闭症、精神分裂症和癫痫以及一些神经退行性疾病情况诸如帕金森氏病、肌萎缩侧索硬化症ALS和常染色体显性阿尔茨海默氏病)中报道了从头和遗传的CNV与几种常见的神经疾病和精神病学疾病之间的关联性Fanciulli等人,ClinGenet77:201-213[2010]。在患有自闭症和自闭症谱系障碍ASD的患者中观察到细胞遗传学异常,其在15qll_ql3处具有重复。根据自闭症基因组项目联盟(AutismGenomeprojectConsortium,154个CNV包括几种复发性CNV,在染色体15qll_ql3上或新基因组位置处,包括染色体2pl6、lq21和与史密斯-马吉利综合征相关的区域中与ASD重叠的17pl2。染色体16pll.2上的复发性微缺失或微重复突出了以下观察结果:在诸如SHANK322ql3.3缺失)、轴突蛋白INRXNl,2pl6.3缺失和neuroglinNLGN4,Xp22.33缺失)的基因的基因座处检测到从头CNV,其已知调控突触分化和调控谷氨酸能神经递质释放。精神分裂症也与多种从头CNV相关。与精神分裂症相关的微缺失和微重复含有属于神经发育和谷氨酸能途径的基因的过表达,这表明影响这些基因的多个CNV可能直接导致精神分裂症的发病,如ERBB4,2q34缺失,SLCJA3,5pl3.3缺失;RAPEGF4,2q31.1缺失;CIT,12.24缺失;和具有从头CNV的多个基因。CNV还与其它神经系统病症相关,包括癫痫(CHRNA7,15ql3.3缺失)、帕金森氏病SNCA4q22重复和ALSSMNl,5ql2·2·_ql3·3缺失;和SMN2缺失)。在一些实施方案中,本文描述的方法可用于确定与神经系统疾病相关的CNV的存在或缺失。例如,该方法可用于确定疑似患有孤独症、精神分裂症、癫痫、神经退行性疾病诸如帕金森氏病、肌萎缩侧索硬化症ALS或常染色体显性阿尔茨海默氏病的患者中CNV的存在。该方法可用于确定与神经系统疾病包括但不限于自闭症谱系障碍ASD、精神分裂症和癫痫中的任一种相关的基因的CNV,以及与神经退行性病症诸如帕金森氏病相关的基因的CNV。与此类疾病相关的CNV的实例包括但不限于15911_913、2?16、1921、17?12、16?11.2和4922处的重复,以及22913.3、2pl6.3、Xp22.33、2q34、5pl3.3、2q31.1、12.24、15ql3.3和5ql2.2处的缺失。在一些实施方案中,该方法可用于确定基因中CNV的存在,所述基因包括但不限于SHANK3、NLGM、NRXNl、ERBB4、SLClA3、RAPGEF4、CIT、CHRNA7、SNCA、SMNl和MN2。[0560]CNV和代谢性或心血管疾病[0561]在许多研究中已经报道了代谢性状和心血管性状(诸如家族性高胆固醇血症FH、动脉粥样硬化和冠状动脉疾病)之间的关联性,并且在多项研究中报道了CNVFanciulli等人,ClinGenet77:201-213[2010]。例如,在一些不携带其它LDLR突变的FH患者中,在LDLR基因中观察到种系重排,主要是缺失LDLR,19pl3.2缺失重复)。另一个实例是编码载脂蛋白(aapoa的LPA基因,其血浆浓度与冠状动脉疾病、心肌梗塞MI和中风的风险相关。含有脂蛋白Lpa的apoa的血浆浓度在个体之间变化超过1000倍,并且90%的这种变异性在LPA基因座处经遗传测定,其中血浆浓度和Lpa同种型尺寸与’kringle4’重复序列的高度可变数量范围5-50成比例。这些数据表明在至少两个基因中的CNV可能与心血管风险相关。本文描述的方法可用于大型研究中以特异性搜索CNV与心血管病症的相关性。在一些实施方案中,本方法可用于确定与代谢疾病或心血管疾病相关的CNV的存在或缺失。例如,本方法可用于确定疑似患有家族性高胆固醇血症的患者中CNV的存在。本文描述的方法可用于确定与代谢疾病或心血管疾病如高胆固醇血症相关的基因的CNV。与此类疾病相关的CNV的实例包括但不限于LDLR基因的19pl3.2缺失重复,以及LPA基因的倍增。[0562]用于确定CNV的装置和系统[0563]通常使用各种计算机执行的算法和程序来执行测序数据的分析和从中导出的诊断。因此,某些实施方案采用涉及存储在一个或多个计算机系统或其它处理系统中或者通过一个或多个计算机系统或其它处理系统传输的数据的方法。本文公开的实施方案还涉及用于执行这些操作的装置。该装置可以为所需目的而专门构造,或者它可以是通过计算机程序和或存储在计算机中的数据结构选择性地激活或重新配置的通用计算机或一组计算机)。在一些实施方案中,一组处理器协同地例如,经由网络或云计算和或并行地执行所述分析操作中的一些或全部。用于执行本文描述的方法的处理器或处理器组可以是各种类型的,包括微控制器和微处理器,诸如可编程设备如,CPLD和FPGA和非可编程设备,诸如门阵列ASIC或通用微处理器。[0564]此外,某些实施方案涉及有形和或非暂时性计算机可读介质或计算机程序产品,其包括用于执行各种计算机-实现的操作的程序指令和或数据包括数据结构)。计算机可读介质的实例包括但不限于,半导体存储设备,磁性介质诸如磁盘驱动器、磁带,光学介质诸如CD,磁光介质以及专门配置用于存储和执行程序指令的硬件设备,诸如只读存储设备ROM和随机访问存储器RAM。计算机可读介质可以由终端用户直接控制,或者介质可以由终端用户间接控制。直接控制的介质的实例包括位于用户设施处的介质和或不与其它实体共享的介质。间接控制的介质的实例包括用户经由外部网络和或经由提供共享资源的服务诸如〃云〃)间接访问的介质。程序指令的实例包括诸如由编译器产生的机器代码,以及包含可由计算机使用解释器执行的更高级代码的文件。[0565]在某些实施方案中,所公开的方法和装置中采用的数据或信息以电子格式提供。这样的数据或信息可以包括来源于核酸样品的读取和标签,与参考序列的特定区域比对如,与染色体或染色体区段比对的此类标签的计数或密度,参考序列包括仅提供或主要提供多态性的参考序列),染色体和区段剂量,识别诸如非整倍性调用、归一化染色体和区段值、染色体对或区段对及相应的归一化染色体或区段、咨询建议、诊断等。如本文所用,以电子格式提供的数据或其它信息可用于存储在机器上并在机器之间传输。通常,电子格式的数据以数字方式提供,并且可以作为位和或字节存储在各种数据结构、列表、数据库等中。数据可以以电子、光学方式等体现。[0566]—个实施方案提供了用于在测试样品中产生指示存在或不存在非整倍性如胎儿非整倍性或癌症的输出的计算机程序产品。计算机产品可以含有用于执行用于确定染色体异常的任一种或多种上述方法的指令。如所解释的,计算机产品可以包括非暂时性和或有形计算机可读介质,其上记录有计算机可执行或可编译逻辑(如,指令)用于使处理器能够确定染色体剂量,并且在一些情况下,确定存在还是缺失胎儿非整倍性。在一个实例中,计算机产品包括计算机可读介质,其上记录有计算机可执行或可编译逻辑如,指令)用于使处理器能够诊断胎儿非整倍性,其包括:用于从来自母体生物样品的至少一部分的核酸分子接收测序数据的接收程序,其中所述测序数据包括计算的染色体和或区段剂量;用于从所述接收数据分析胎儿非整倍性的计算机辅助逻辑;和输出程序,用于产生指示所述胎儿非整倍性的存在、不存在或种类的输出。[0567]可以将来自所考虑的样品的序列信息定位至染色体参考序列,以鉴定任一个或多个目标染色体中的每一个的序列标签数目,并鉴定用于所述任一种或多种目标染色体中的每一个的归一化区段序列的多个序列标签。在某些实施方案中,将参考序列存储在数据库中,诸如关系数据库或对象数据库,例如。[0568]应当理解,在大多数情况下,对于未受协助的人来说,执行本文公开的方法的计算操作是不实际的,或者甚至是不可能的。例如,在无计算装置帮助的情况下,将来自样品的单个30bp的读取定位至任何一个人染色体可能需要多年的努力。当然,问题是复杂的,因为可靠的非整倍性识别通常需要将数千如,至少约1〇,〇〇〇或甚至数百万的读取定位至一个或多个染色体。[0569]可以使用用于评估测试样品中遗传目标序列的拷贝数的系统来执行本文公开的方法。该系统包括:(a测序仪,其用于接收来自测试样品的核酸,提供来自样品的核酸序列信息;⑹处理器;以及c一个或多个计算机可读存储介质,其上存储有用于在所述处理器上执行的指令,以执行鉴定任何CNV如染色体或部分非整倍性)的方法。在一些实施方案中,该方法由计算机可读介质指示,其上存储有计算机可读指令,用于执行鉴定任何CNV如染色体或部分非整倍性)的方法。因此,一个实施方案提供了计算机程序产品,其包括一个或多个计算机可读的非暂时性存储介质,其上存储有计算机可执行指令,所述指令当由计算机系统的一个或多个处理器执行时,使计算机系统实现一种用于评估包含胎儿和母体无细胞核酸的测试样品中目标序列的拷贝数的方法。该方法包括:(a接收通过对测试样品中的无细胞核酸片段进行测序获得的序列读取;(b将无细胞核酸片段的序列读取与包含目标序列的参考基因组比对,从而提供测试序列标签,其中参考基因组被分成多个箱;(c确定测试样品中存在的无细胞核酸片段的尺寸;(d基于从其获得标签的无细胞核酸片段的尺寸对测试序列标签进行加权;(e基于d的加权标签,计算箱的覆盖率;以及f从计算的覆盖率中鉴定目标序列中的拷贝数变异。在一些实施方式中,加权测试序列标签涉及将覆盖率偏向从测试样品中的一个基因组的特征性尺寸或尺寸范围的无细胞核酸片段获得的测试序列标签。在一些实施方式中,对测试序列标签进行加权涉及将值1赋予给从尺寸或尺寸范围的无细胞核酸片段获得的标签,并将值0指定给其它标签。在一些实施方式中,该方法还涉及在包含目标序列的参考基因组的箱中确定片段尺寸参数值,其包括具有比阈值更短或更长的片段尺寸的测试样品中的无细胞核酸片段的量。这里,鉴定目标序列中的拷贝数变异涉及使用片段尺寸参数值以及在e中计算的覆盖率。在一些实施方式中,该系统经配置使用上述各种方法和过程来评估测试样品中的拷贝数。[0570]在一些实施方案中,指令可进一步包括在提供母体测试样品的人类受试者的患者医疗记录中自动记录与该方法相关的信息,诸如染色体剂量和存在或缺失胎儿染色体非整倍性。患者医疗记录可以由例如实验室、医生办公室、医院、健康维护组织、保险公司或个人医疗记录网站维护。此外,基于处理器实现的分析的结果,该方法可以进一步涉及对从其取得母体测试样品的人类受试者开处方、开始和或改变治疗。这可以涉及对取自受试者的另外样品进行一次或多次另外的测试或分析。[0571]所公开的方法也可以使用计算机处理系统来执行,该计算机处理系统适于或者被配置为执行用于鉴定任何CNV如染色体或部分非整倍性)的方法。一个实施方案提供了一种计算机处理系统,其适于或者被配置为执行如本文所述的方法。在一个实施方案中,该装置包括适于或者被配置为对样品中的至少一部分核酸分子进行测序的测序装置,以获得本文其它各处所述的序列信息类型。该装置还可包括用于加工样品的组件。此类组件在本文其它地方描述。[0572]序列或其它数据,可以直接或间接地输入计算机或存储在计算机可读介质上。在一个实施方案中,计算机系统直接耦合至测序装置,该测序装置从样品读取和或分析核酸序列。来自此类工具的序列或其它信息经由计算机系统中的界面提供。或者,由该系统处理的序列由序列存储源诸如数据库或其它存储库提供。一旦可用于该处理装置,存储设备或大容量存储设备至少暂时地缓冲或存储核酸序列。此外,存储设备可以存储各个染色体或基因组等的标签计数。存储器还可以存储用于分析呈现序列或定位的数据的各种例程和或程序。此类程序例程可以包括用于执行统计分析等的程序。[0573]在一个实例中,用户将样品提供到测序装置中。由连接到计算机的测序装置收集和或分析数据。计算机上的软件允许数据收集和或分析。可以将数据存储、显示通过监视器或其它类似设备)和或发送到另一个位置。计算机可以连接到互联网,互联网用于将数据传输到远程用户(如医生、科学家或分析员使用的手持设备。应当理解,可以在传输之前存储和或分析数据。在一些实施方案中,收集原始数据并将其发送到将分析和或存储数据的远程用户或装置。传输可以经由互联网进行,但也可以经由卫星或其它连接进行。或者,数据可以存储在计算机可读介质上,并且该介质可以被运送到终端用户(如,经由邮件)。远程用户可以位于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大陆。[0574]在一些实施方案中,该方法还包括收集关于多条多核苷酸序列(如,读取、标签和或参考染色体序列)的数据,并将数据发送到计算机或其它计算系统。例如,计算机可以连接到实验室设备,如样品收集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,计算机可以收集由实验室设备收集的可用数据。数据可以在任何步骤存储在计算机上,如在发送之前、发送期间或与发送一起或发送之后实时收集。可以将数据存储在可以从计算机中提取的计算机可读介质上。可以如经由本地网络或诸如因特网的广域网将收集或存储的数据从计算机传输到远程位置。在远程位置,可以对传输的数据执行各种操作,如下所述。[0575]在本文公开的系统、装置和方法中可以存储、传输、分析、和或操纵的电子格式数据类型如下:[0576]通过对测试样品中的核酸进行测序来获得的读取[0577]通过将读取与参考基因组或其它参考序列进行比对来获得的标签[0578]参考基因组或序列[0579]序列标签密度-参考基因组或其它参考序列的两个或更多个区域通常是染色体或染色体区段中的每一个的标签的计数或数量[0580]对特定目标染色体或染色体区段的归一化染色体或染色体区段的标识[0581]从目标染色体或区段和相应的归一化染色体或区段获得的染色体或染色体区段或其它区域的剂量[0582]用于调用染色体剂量作为受影响、不受影响或无调用的阈值[0583]染色体剂量的实际调用[0584]诊断与调用相关的临床病况)[0585]来源于调用和或诊断的进一步测试的建议[0586]来源于调用和或诊断的治疗和或监测方案[0587]可以使用不同的装置在一个或多个位置处获得、存储、传输、分析和或操纵这些各种类型的数据。处理选项涉及广泛的范围。在范围的一端,所有或大部分信息在处理测试样品的位置处被存储并使用,如医生办公室或其它临床环境。在另一个极端情况下,在一个位置获得样品,将它处理并且任选地在不同的位置处进行测序,将读取进行比对并且在一个或多个不同的位置处进行调用,并且在另一个位置其可以是获得样品的位置准备诊断、建议和或计划。[0588]在某些实施方案中,利用测序装置生成读取,然后将其传输到远程站点,在远程站点处理它们以产生非整倍性识别。在这个远程位置,作为一个实例,将读取与参考序列比对以产生标签,这些标签被计数并分配给目标染色体或区段。同样在远程位置,使用相关的归一化染色体或区段将计数转换为剂量。此外,在远程位置,剂量用于产生非整倍性识别。[0589]可以在不同位置使用的加工操作包括:[0590]样品收集[0591]测序之前的样品处理[0592]测序[0593]分析序列数据并推导非整倍性调用[0594]诊断[0595]报告诊断和或调用给患者或健康护理提供者[0596]制定用于进一步处理、测试和或监测的计划[0597]执行计划[0598]咨询[0599]这些操作中的任一个或多个可以如本文其它地方所述自动化。通常,对序列数据进行的测序和分析以及导出非整倍性调用将在计算上执行。另一个操作可以手动或自动执行。[0600]可以进行样品收集的位置的实例包括卫生从业者办公室、诊所、患者家其中提供样品收集工具或试剂盒和移动健康护理车辆。可以在测序之前执行样品处理的位置的实例包括健康从业者办公室、诊所、患者家其中提供样品加工装置或试剂盒)、移动健康护理车辆和非整倍性分析提供者设施。可以为测试发生的位置提供专用网络连接,用于以电子格式传输序列数据通常是读取)。此类连接可以是有线的或无线的,并且具有并且可以被配置为将数据发送到可以在传输到处理站点之前处理和或聚合数据的站点。数据聚合器可由健康组织诸如健康维护组织HealthMaintenance0rganizations,HM0维护。[0601]分析和或推导操作可以在任何前述位置处执行,或者可以在专用于计算和或分析核酸序列数据服务的另一远程站点处执行。此类位置包括例如,集群诸如通用服务器农场、非整倍性分析服务业的设施等。在一些实施方案中,用于执行分析的计算装置是租赁的或租用的。计算资源可以是因特网可访问的处理器集合的一部分,诸如俗称为云的处理资源。在一些情况下,计算由并行或大规模并行的处理器组执行,这些处理器彼此关连或不关连。可以使用分布式处理诸如集群计算、网格计算等来完成处理。在此类实施方案中,计算资源的集群或网格共同形成超级虚拟计算机,该超级虚拟计算机由多个处理器或计算机一起作用以执行本文所述的分析和或推导组成。这些技术以及更多常规的超级计算机可用于处理如本文所述的序列数据。每种都是依赖于处理器或计算机的并行计算形式。在网格计算的情况下,这些处理器通常是整个计算机通过常规网络方案诸如以太网通过网络专用、公共或因特网连接。相比之下,超级计算机有许多通过本地高速计算机总线连接的处理器。[0602]在某些实施方案中,诊断(如,胎儿患有唐氏综合征或患者患有特定类型的癌症)在与分析操作相同的位置产生。在其它实施方案中,它在不同的位置进行。在一些实例中,报告诊断是在取得样品的位置处执行的,尽管不一定是这种情况。可以生成或报告诊断和或进行计划开发的位置的实例包括有线或无线连接到网络的健康从业者办公室、诊所、可通过计算机访问的因特网站点、以及诸如手机、平板电脑、智能电话等的手持设备。进行咨询的位置的实例包括健康从业者办公室、诊所、可通过计算机访问的互联网站点、手持设备等。[0603]在一些实施方案中,在第一位置执行样品收集、样品处理和测序操作,并且在第二位置执行分析和推导操作。然而,在一些情况下,样品收集在一个位置如,医疗从业者办公室或诊所收集,并且样品加工和测序在不同的位置处执行,该位置任选地是进行分析和推导的相同位置。[0604]在某些实施方案中,以上列出的操作的序列可以由启动样品收集、样品处理和或测序的用户或实体触发。在一个或多个这些操作开始执行之后,其它操作可以自然地跟随。例如,测序操作可以使读取段自动收集并发送到处理装置,然后该处理装置通常自动并且可能无需进一步的用户干预地进行非整倍性操作的序列分析和推导。在一些实施方式中,然后将该处理操作的结果自动递送可能重新格式化为诊断)到处理向健康专业人员和或患者报告信息的系统组件或实体。如所解释的,此类信息也可以被自动处理以产生治疗、测试和或监测计划,可能连同咨询信息。因此,启动早期操作可以触发端至端序列,其中向健康专业人员、患者或其它相关方提供诊断、计划、咨询和或对于作用于身体状况有用的其它信息。即使整个系统的部分是物理分离的并且可能远离如样品和序列装置的位置,这也可以实现。[0605]图5显示了用于从测量样品产生调用或诊断的分散系统的一种实施方式。样品收集位置01用于从患者诸如妊娠女性或推定的癌症患者获得测试样品。然后将样品提供给处理和测量位置03,其中可以如上所述处理测试样品并且进行测序。位置03包括用于处理样品的装置以及用于对经处理的样品进行测序的装置。如本文其它地方所述,测序的结果是读取的集合,其通常以电子格式提供并且提供给诸如因特网的网络,其由图5中的参考号05指示。[0606]将序列数据提供给远程位置07,在远程位置07执行分析和调用生成。该位置可以包括一个或多个强大的计算设备,诸如计算机或处理器。在位置07处的计算资源完成其分析并从所接收的序列信息生成调用之后,调用被中继回网络05。在一些实施方式中,不仅在位置07处生成调用而且也生成相关诊断。然后,调用和或诊断通过网络传输并返回到样品收集位置01,如图5所示。如所解释,这仅仅是关于如何在各个位置之间划分与生成调用或诊断相关联的各种操作的许多变化之一。一种常见变体涉及在单个位置提供样品收集和处理以及测序。另一种变化涉及在与分析和调用生成相同的位置提供处理和测序。[0607]图6详细说明了在不同位置处执行各种操作的选项。在图6中描绘的最精细意义上,以下每个操作在单独的位置执行:样品收集、样品处理、测序、读取比对、调用、诊断和报告和或计划开发。[0608]在聚集这些操作中的一些的实施方案中,在一个位置执行样品处理和测序,并且在单独的位置执行读取比对、调用和诊断。参见由参考字符A标识的图6的部分。在图6中由字符B标识的另一个实施方式中,样品收集、样品处理和测序都在相同位置处执行。在这种实施方式中,读取比对和调用在第二位置中执行。最后,诊断和报告和或计划开发在第三个位置中进行。在图6中由字符C描绘的实施方式中,样品收集在第一位置处执行,样品处理、测序、读取比对、调用和诊断都在第二位置处一起执行,并且报告和或计划开发在第三位置处进行。最后,在图6中D标记的实施方式中,样品收集在第一位置处执行,样品处理、测序、读取比对和调用都在第二位置处执行,并且诊断和报告和或计划管理在第三位置处进行。[0609]一个实施方案提供了用于在包含胎儿和母体核酸的母体测试样品中确定存在或缺失任一种或多种不同的完整胎儿染色体非整倍性的系统,该系统包括用于接收核酸样品并提供来自样品的胎儿和母体核酸序列信息的测序仪;处理器;以及包括在所述处理器上执行的指令的机器可读存储介质,所述指令包括:[0610]a用于获得样品中所述胎儿和母体核酸的序列信息的代码;[0611]b用于使用所述序列信息来计算地鉴定选自1-22号染色体、X染色体和Y染色体的一个或多个目标染色体中的每一个的来自胎儿和母体核酸的序列标签数量,并鉴定所述任一个或多个目标染色体中的每一个的至少一条归一化染色体序列或归一化染色体区段序列的序列标签数量的代码;[0612]c用于使用对所述任一个或多个目标染色体中的每一个所鉴定的所述序列标签数量和对每条归一化染色体序列或归一化染色体区段序列所鉴定的所述序列标签数量以计算任一个或多个目标染色体中的每一个的单个染色体剂量的代码;和[0613]d用于比较任一个或多个目标染色体中的每一个的单个染色体剂量的每一个与一个或多个目标染色体中的每一个的相应阈值,并从而确定样品中存在或缺失任一个或多个完整的不同胎儿染色体非整倍性的代码。[0614]在一些实施方案中,用于计算任一个或多个目标染色体的每一个的单个染色剂剂量的代码包括用于计算所选择的一个目标染色体的染色体剂量为对所选目标染色体鉴定的序列标签数量与对所选目标染色体的相应至少一条归一化染色体序列或归一化染色体区段序列所鉴定的序列标签数量的比率的代码。[0615]在一些实施方案中,该系统还包括用于重复计算任一个或多个目标染色体的任一个或多个区段的任何剩余染色体区段中的每一个的染色体剂量的代码。[0616]在一些实施方案中,选自1-22号染色体、X染色体和Y染色体的一个或多个目标染色体包括选自1-22号染色体、X染色体和Y染色体的至少二十个染色体,并且其中指令包括用于确定存在或缺失至少二十个不同的完整胎儿染色体非整倍性的指令。[0617]在一些实施方案中,至少一条归一化染色体序列是选自1-22号染色体、X染色体和Y染色体的一组染色体。在其它实施方案中,至少一条归一化染色体序列是选自1-22号染色体、X染色体和Y染色体的单一染色体。[0618]另一实施方案提供了一种用于确定包含胎儿和母体核酸的母体测试样品中存在或缺失任一种或多种不同部分胎儿染色体非整倍性的系统,该系统包括:用于接收核酸样品的测序仪并提供来自样品的胎儿和母体核酸序列信息;处理器;和包括在所述处理器上执行的指令的机器可读存储介质,所述指令包括:[0619]a用于获得所述样品中所述胎儿和母体核酸的序列信息的代码;[0620]b用于使用所述序列信息来计算地鉴定选自1-22号染色体、X染色体和Y染色体的任一个或多个目标染色体的任一个或多个区段的来自胎儿和母体核酸的序列标签数量以鉴定所述任一个或多个目标染色体的任一个或多个区段中的每一个的至少一条归一化区段序列的序列标签数量的代码;[0621]c用于使用对所述任一个或多个目标染色体的任一个或多个区段中的每一个所鉴定的所述序列标签数量和对所述归一化区段序列所鉴定的所述序列标签数量以计算所述任一个或多个目标染色体的任一个或多个区段中的每一个的单个染色体区段剂量的代码;和[0622]d用于比较所述任一个或多个目标染色体的任一个或多个区段中的每一个的单个染色体区段剂量与所述任一个或多个目标染色体的任一个或多个染色体区段中的每一个的相应阈值,并从而确定所述样品中存在或缺失一个或多个不同的部分胎儿染色体非整倍性的代码。[0623]在一些实施方案中,用于计算单个染色体区段剂量的代码包括用于将所选染色体区段中的一个的染色体区段剂量计算为对所选染色体区段鉴定的序列标签数量与对所选染色体区段的相应归一化区段序列所鉴定的序列标签数量的比率的代码。[0624]在一些实施方案中,该系统还包括用于重复计算任一个或多个目标染色体的任一个或多个区段的任何剩余染色体区段中的每一个的染色体区段剂量的代码。[0625]在一些实施方案中,该系统还包括(i用于对来自不同母体受试者的测试样品重复a-d的代码,以及(ii用于确定在所述样品的每一个中存在或缺失任一个或多个不同的部分胎儿染色体非整倍性代码。[0626]在本文提供的任何系统的其它实施方案中,该代码还包括用于自动记录在提供母体测试样品的人受试者的患者医疗记录中存在或缺失如在⑹中所确定的胎儿染色体非整倍性的代码,其中使用处理器进行记录。[0627]在本文提供的任何系统的一些实施方案中,测序仪经配置用于执行下一代测序NGS。在一些实施方案中,测序仪经配置用于使用具有可逆染料终止子的边合成边测序来执行大规模并行测序。在其它实施方案中,测序仪经配置用于执行边连接边测序。在其它实施方案中,测序仪经配置用于执行单分子测序。实施例[0628]实施例1[0629]初始和经富集的测序文库的制备和测序[0630]a.制备测序文库-缩略方案ABB[0631]所有测序文库,即初始和经富集的文库,是由从母体血浆中提取的大约2ng的纯化cfDNA制备的。文库制备使用NEBNext™DNA样品制备DNA试剂组INEBNext™DNASamplePrepDNAReagentSet1,部件号E6000L;NewEnglandBiolabs,Ipswich,MA的试剂进行,用于如下的Illumina®。因为无细胞血浆DNA在自然界中是片段化的,所以没有对血浆DNA样品通过雾化或超声处理进行进一步的片段化。根据NEBNext®末端修复模块,通过在20。:,在1.5ml微量离心管中孵育cfDNA与5μ1IOX磷酸化缓冲液、2μ1脱氧核苷酸溶液混合物10mM,各dNTP、lyll:5稀释的DNA聚合酶Ι、1μ1Τ4DNA聚合酶及ΙμΐΤ4多核苷酸激酶在NEBNext™DNA样品制备DNA试剂组1中提供)持续15分钟,来将包含在40μ1中的约2ng纯化cfDNA片段的突出端转化为经磷酸化的平末端。然后通过将反应混合物在75°C下孵育5分钟来热灭活酶。将混合物冷却至4°C,并使用10μ1含有Klenow片段3’至5’外切-的dA加尾主混合物NEBNext™DNA样品制备DNA试剂组1完成平末端DNA的dA加尾,并在37°C孵育15分钟。随后,通过将反应混合物在75°C孵育5分钟使Klenow片段热灭活。在Klenow片段灭活之后,Ιμΐ1:5稀释的Illumina基因组接头寡核苷酸混合物部件号1000521;IlluminaInc.,Hayward,CA用于通过将反应混合物在25°C孵育15分钟,使用NEBNext™DNA样品制备DNA试剂组1中提供的4μ1T4DNA连接酶,来连接IIlumina接头(非-索引Y-接头)至dA-加尾的DNA。将混合物冷却至4°C,并且使用AgencourtAMPureXPPCR纯化系统(部件号A63881;BeckmanCoulterGenomics,Danvers,MA中提供的磁珠,将接头连接的cfDNA从未连接的接头、接头二聚体和其它试剂中纯化。使用Phusion®高保真主混合物(25μ1;Finnzymes,Woburn,MA和与接头互补的Illumina的PCR引物(各0.5μΜ部件号1000537和1000537,进行18个循环的PCR以选择性富集接头连接的cfDNA25μ1。根据制造商的说明书,使用Illumina基因组PCR引物部件号100537和1000538和NEBNext™DNA样品制备DNA试剂组1中提供的PhusionHFPCR主混合物,使接头-连接的DNA进行PCR98°C持续30秒;18个循环的98°C持续10秒,65°C持续30秒和72°C持续30;最终延伸在72°C下,持续5分钟,并在4°C保持)。根据可从WWW.beckmangenomics·comproductsAMPureXPProtocol_000387v001·pdf获得的制造商的说明书,使用AgencourtAMPureXPPCR纯化系统AgencourtBioscienceCorporation,BeverIy,MA将经扩增的产物纯化。将经纯化的扩增产物在40μ1QiagenEB缓冲液中洗脱,并使用用于2100生物分析仪的AgilentDNA1000试剂盒(AgilenttechnologiesInc.,SantaClara,CA分析经扩增的文库的浓度和尺寸分布。[0632]b.制备测序文库一全长方案[0633]本文所述的全长方案基本上是由Illumina提供的标准方案,并且仅与Illumina方案在经扩增的文库的纯化方面不同。Illumina方案指导使用凝胶电泳将经扩增的文库纯化,而本文所述的方案使用磁珠进行相同的纯化步骤。基本上根据制造商的说明书,使用NEBNext™DNA样品制备DNA试剂组1部件号E6000L;NewEnglandBiolabs,Ipswich,MA,使用从母体血浆中提取的约2ng纯化cfDNA制备初始测序文库用于niumiM·。除了使用Agencourt磁珠和试剂代替纯化柱进行的接头连接产物的最终纯化之外的所有步骤,均根据伴随用于使用HIumiim㊣GAIL进行测序的基因组DNA文库的样品制备的NEBNext™试剂的方案进行。NEBNext™方案基本上按照可从grcf·jhml·eduhtsprotocols11257047_ChIP_Sample_Prep·pdf获得的由11Iumina提供的方案进行。[0634]根据NEBNext®末端修复模块NEBNext®EndRepairModule,通过在20°C,在200μ1微量离心管中孵育40μ1CfDNA与5μ1IOX磷酸化缓冲液、2μ1脱氧核苷酸溶液混合物10mM,各dNTP、1μ1的1:5稀释的DNA聚合酶Ι、1μ1的Τ4DNA聚合酶及Ιμΐ的Τ4多核苷酸激酶在NEBNext™DNA样品制备DNA试剂组1中提供持续30分钟,来将包含在40μ1中的约2ng纯化CfDNA片段的突出端转化为经磷酸化的平末端。将样品冷却至4°C,并如下使用QIAQuickPCR纯化试剂盒QIAGENInc.,Valencia,CA中提供的QIAQuick柱进行纯化。将50μ1反应物转移至1.5ml微量离心管中,并加入250μ1的Qiagen缓冲液ΡΒ。将得到的300μ1转移至QIAquick柱,将其在微量离心机中以13,000RPM离心1分钟。用750μ1Qiagen缓冲液PE洗涤柱,并再次离心。通过以13,000RPM再离心5分钟,除去残留的乙醇。通过离心将DNA在39μ1Qiagen缓冲液EB中洗脱。根据制造商的NEBNext®dA-加尾模块(NEBNext®dA-TaiIingModule,使用16μ1含有Klenow片段3’至5’外切-的dA-加尾主混合物NEBNext™DNA样品制备DNA试剂组1并在37°C孵育30分钟,实现34μ1平末端DNA的dA加尾。将样品冷却至4°C,并如下使用MinElutePCR纯化试剂盒MinElutePCRPurificationKit,QIAGENInc.,Valencia,CA中提供的柱进行纯化。将50μ1反应物转移至1.5ml微量离心管,并加入250μ1Qiagen缓冲液I3B。将300μ1转移至MinElute柱,将其在微量离心机中以13,000RPM离心1分钟。将柱用750μ1Qiagen缓冲液PE洗涤,并再次离心。通过以13,000RPM再离心5分钟,除去残留的乙醇。通过离心将DNA在15μ1Qiagen缓冲液EB中洗脱。根据NEBNextCR快速连接模块NEBNext®QuickLigationModule,将10微升DNA洗脱液与Ιμΐ1:5稀释的Illumina基因组接头寡核苷酸混合物(部件号1000521、15μ12Χ快速连接反应缓冲液和4μ1QuickT4DNA连接酶在25°C—起孵育15分钟。将样品冷却至4°C,并如下使用MinElute柱纯化。将150微升Qiagen缓冲液PE加入到30μ1反应物,并将整个体积转移至MinElute柱,将其在微量离心机中以13,000RPM离心1分钟。将柱用750μ1Qiagen缓冲液PE洗涤,并再次离心。通过以13,000RPM再离心5分钟,除去残留的乙醇。通过离心将DNA在28μ1Qiagen缓冲液EB中洗脱。根据制造商的说明书,使用Illumina基因组PCR引物(部件号100537和1000538和NEBNext™DNA制备DNA试剂组1中提供的PhusionHFPCR主混合物PhusionHFPCRMasterMix,使23微升接头连接的DNA洗脱液进行18个PCR循环98°C持续30秒;18个循环的98°C持续10秒,65°C持续30秒,和72°C持续30;最终延伸72°C持续5分钟并在4°C下维持)。根据可从WWW.beckmangenomics·comproductsAMPureXPProtoco1_000387ν001·pdf获得的制造商的说明书,使用AgencourtAMPureXPPCR纯化系统(AgencourtBioscienceCorporation,Beverly,MA将扩增产物纯化。AgencourtAMPureXPPCR纯化系统可去除未掺入的dNTP、引物、引物二聚体、盐和其它污染物,并回收大于IOObp的扩增子。在40μ1QiagenEB缓冲液中从Agencourt珠粒洗脱经纯化的扩增产物,并使用用于2100生物分析仪的AgilentDNA1000试剂盒AgilenttechnologiesInc.,SantaClara,CA分析文库的尺寸分布。[0635]c.分析根据缩略a和全长⑹方案制备的测序文库[0636]由生物分析仪®ioanalyzer产生的电泳图示于图7A和7B中。图7A显示了使用a中描述的全长方案从由血浆样品M24228纯化的cfDNA制备的文库DNA的电泳图,并且图7B显示了使用⑹中描述的全长方案从由血浆样品M24228纯化的cfDNA制备的文库DNA的电泳图。在两个图中,峰1和4分别代表15bp的下标记(LowerMarker和I,500上标记(UpperMarker;峰值以上的数字表示文库片段的迀移时间;并且水平线表示积分(integration的设定阈值。图7A中的电泳图显示187bp的片段的次要峰和263bp的片段的主峰,而图7B中的电泳图仅显示265bp处的一个峰。峰面积的积分导致图7A中187bp峰的DNA的计算浓度为0.40ngAU,图7A中263bp峰的DNA的浓度为7.34ngyl,并且图7B中265bp峰的DNA的浓度为14.72ngAU。已知连接到cfDNA的11Iumina接头是92bp,其当从265bp中减去时,表明cfDNA的峰尺寸是173bP3187bp处的次要峰可能代表端-至-端连接的两个引物的片段。当使用缩略方案时,直链双引物片段从最终的文库产物中消除。缩略方案还消除了小于187bp的其它较小片段。在该实施例中,经纯化的接头连接的cfDNA的浓度是使用全长方案产生的接头连接的CfDNA的浓度的两倍。已经注意到,接头连接的CfDNA片段的浓度总是大于使用全长方案获得的浓度数据未显示)。[0637]因此,使用缩略方案制备测序文库的一个优势是获得的文库始终只包含262-267bp范围内的一个主峰,而使用全长方案制备的文库的质量如除了代表cfDNA之外的峰数目和迀移率所反映的那样变化。非cfDNA产物将占据流动池上的空间并降低簇扩增和随后的测序反应成像的质量,这是非整倍性状态的总体分配的基础。缩略方案显示不影响文库的测序。[0638]使用缩略方案制备测序文库的另一个优势是平末端、d-A加尾和接头连接的三个酶促步骤需要不到一个小时来完成,以支持快速非整倍体诊断性服务的验证和实施。[0639]另一个优势是平末端、d-A加尾和接头连接的三个酶促步骤在相同的反应管中进行,从而避免了可能导致材料丢失的多个样品转移,并且更重要的是可能的样品混淆和样品污染。[0640]实施例2[0641]使用片段尺寸进行的非侵入性产前检测[0642]魅[0643]自2011年底和2012年初商业引入以来,母体血浆中无细胞DNAcfDNA的非侵入性产前检测NIPT已迅速成为筛选有高胎儿非整倍性风险的孕妇的首选方法。该方法主要基于对孕妇血浆中的cfDNA进行分离和测序,并对与参考人基因组的特定区域比对的cfDNA片段的数量进行计数参考文献:Fan等人,Lo等人)。这些DNA测序和分子计数方法允许高精度地确定跨基因组的每个染色体的相对拷贝数。在多个临床研究中可重复地实现对21三体、18和13的检测的高灵敏度和特异性参考文献,引用GilNicolaides元分析)。[0644]最近,另外的临床研究表明,这种方法可以扩展到一般的产科人群。高风险人群和平均风险人群之间的胎儿分数没有可检测的差异参考文献)。临床研究结果表明,使用通过cfDNA测序进行的分子计数的NIPT在两个群体中表现相同。已经证实了正预测值PPV相对于标准血清筛选的统计学显著提高(参考文献)。与血清生化和颈部半透明度测量相比,较低的假阳性测试结果显著降低了对侵入性诊断性程序的需求(参见来自Abuhamad’sgroup的Larion等人的参考文南犬)。[0645]鉴于在一般产科群体中良好的NIPT表现,工作流程的简单性和成本现已成为在一般产科群体中实施全染色体非整倍性检测的cfDNA测序的主要考虑因素参考文献:ISro辩论I,Brisbane。大多数NIPT实验室方法在文库制备和单末端测序之后利用聚合酶链式反应PCR扩增步骤,其需要1000-2000万个独特的cfDNA片段以实现合理的灵敏度以检测非整倍性。基于PCR的工作流程的复杂性和更深的测序要求限制了NIPT测定的潜力,并导致成本增加。[0646]这里证明了使用非常低的cfDNA输入而不需要PCR扩增的简单文库制备可以实现高分析灵敏度和特异性。无PCR方法简化了工作流程,提高了周转时间并消除了PCR方法固有的偏差。无扩增工作流程可以与配对末端测序结合,以允许确定每个样品中的每个标签的片段长度和总胎儿分数。由于胎儿cfDNA片段比母体片段短[参考文献Quake2010,也应该引用Lo’sScienceClinTranslation文章],从母体血楽检测胎儿非整倍性可以更加稳定和高效,需要更少的独特cfDNA片段。相结合地,在显著更低的cfDNA片段数量下,以非常快的周转时间实现了提高的分析灵敏度和特异性。这可能使NIPT以显著更低的成本进行,以便于在一般产科群体中应用。[0647]方法[0648]将外周血样品吸入BCT管(Streck,Omaha,NE,USA中并运送到RedwoodCity的IlluminaCLIA实验室进行商业NIPT测试。签署的患者同意书允许第二血浆等分试样脱鉴定de-identified并用于临床研究,但从纽约州发送的患者样品除外。选择用于该项工作的血浆样品以包括具有一系列cfDNA浓度和胎儿分数的未受影响的和非整倍体胎儿。[0649]文库加工的简化[0650]使用经过微小修改以容纳更大的裂解物输入的NucleoSpin96孔血液纯化试剂盒Macherey-NageI,Diiren,Germany,从900μ1的母体血楽中提取cfDNA。使经分离的cfDNA直接进入测序文库方法中,没有cfDNA输入的任何归一化。用TruSeq无PCRDNA文库试剂盒TruSeqPCRFreeDNAlibrarykit,Illumina,SanDiego,CA,USA制备测序文库,其具有双重指标以用于条形码化cfDNA片段以用于样品鉴定。对文库方案的以下修改用于改善文库制备与输入cfDNA的低浓度的相容性。模板输入体积增加,而末端修复、A-加尾和连接主混合物和接头浓度降低。另外,在末端修复后,引入热灭杀步骤以使酶失活,去除后端修复SPRI供应商珠粒纯化步骤,并且在后连接SPRI珠粒纯化步骤期间的洗脱使用HTl缓冲液(Illumina〇[0651]使用经配置为具有96个通道头和8个ImL移液通道的单个MICROLABSSTARHamiIton,Reno,NV,USA液体处理器,一次批量处理96个血浆样品。液体处理器通过DNA提取、测序文库制备和定量处理每种个体血液样品。用AccuClearBiotium,Hayward,CA,USA定量个体样品文库,并用归一化输入制备48个样品的汇集物,得到用于测序的最终浓度为32pM〇[0652]配对末端测序[0653]利用2x36bp配对末端测序,加上另外16个循环的用于对样品条形码进行测序,用IlluminaNextSeq500仪器进行DNA测序。共有364个样品在8个独立的测序批次中运行。[0654]使用bcl2fastqIllumina对配对的DNA序列进行解复用,并将其使用bowtie2对准器算法[参考文献Landmead]定位至参考人基因组hgl9。成对的读取必须匹配待计数的正义链和反义链。超过为10的定位质量评分具有全局唯一的第一读取)(Ruan等人的所有计数的定位对被分配给大小为IOOkb的非重叠连续固定宽度基因组箱。大约2%的基因组在独立一组NIPT样品中显示出高度可变覆盖率,并被排除在进一步分析之外。[0655]使用可从经测序的cfDNA片段两端的每一个的定位位置获得的基因组位置信息和片段尺寸,推导出每个IOOkb窗的两个变量:(a长度低于150个碱基对的短片段的总计数,和b在低于250个碱基对的所有片段组内的80和150个碱基对之间的片段的分数。将片段的尺寸限制为小于150个碱基对,富集了源自胎盘的片段,所述胎盘是胎儿DNA的代用品。短片段的分数表征了血浆混合物中的相对胎儿cfDNA量。与对于该染色体是二体的整倍体胎儿相比,预期来自三体胎儿的CfDNA具有更高分数的定位至三体染色体的短读取。[0656]利用图2D所示的方法,将短片段的计数和分数独立地归一化,以去除归因于基因组鸟嘌呤胞嘧啶GC含量的系统性测定偏差和样品特异性变异。通过去除偏离全染色体中值超过3个稳定的标准偏差度量的箱来修整归一化值。最后,对于两个变量中的每一个,将与靶染色体相关的修整的归一化值与归一化参考染色体上的那些进行比较,以构建t-统计量。[0657]来自每个配对末端测序运行的数据遵循分析的四个步骤:1读取转换,2IOOkb分辨率下的特征分箱,3在IOOkb分辨率下的每个特征计数和分数的归一化,以及4组合特征和评分以用于非整倍性检测。在步骤1中,将样品数据从各个条形码解复用,与基因组比对,并对序列质量进行过滤。步骤2,对每个箱,确定长度低于150个碱基对的短片段的总计数,和低于250个碱基对的所有片段组内的80至150个碱基对之间的片段的分数。在步骤3中去除测定偏差和样品特异性变异。最后,确定对参照物的富集并使用t-检验对每个计数和分数进行评分,并将其组合用于非整倍性检测的最终评分。[0658]检测胎儿全染色体非整倍性[0659]我们测试了计数和分数数据是否可以组合起来以增强检测胎儿21三体的能力。将来自携带具有核型确认为21三体的胎儿的孕妇的16个血液样品和来自未受影响的妊娠的294个样品随机分布于加工批次中,得到9个用于测序的流动池。分别检查每个算法步骤以确定每个步骤和步骤组合检测非整倍性的能力。将组合情况下的胎儿非整倍性检测的最终评分定义为两个单独t_统计量的平方和的平方根,并且应用单个阈值来产生〃非整倍性检出〃相对于〃非整倍性未检出〃的调用。[0660]胎儿分数的计算[0661]对于每种样品,使用基因组IOOkb箱的亚组内的尺寸[111,136bp]的片段总数与尺寸[165,175bp]的片段总数之比来估计胎儿分数。使用来自携带已知男性胎儿的妇女的样品,确定了与来源于X染色体的拷贝数的胎儿分数具有最高相关性的前10%基因组箱[参考文献Rava]。与胎儿分数来源于相关的基因组箱的最高10%与X染色体[refRava]的拷贝数相关。使用包括箱选择和回归模型参数估计两者的留一交叉验证[REF]分析来计算基于片段尺寸的胎儿分数估值与已知男性胎儿中的来源于X染色体的那些之间的相关性。然后使用来自片段尺寸比的线性回归模型推导出估计的胎儿分数。[0662]莖里[0663]文库加工的简化[0664]图8显示了与标准实验室工作流程相比,该新版NIPT的整体工作流程和时间表。用于血液分离、cfDNA提取、文库构建、定量和汇集的整个96-样品制备工作流程能够在单个HamiItonSTAR上在不到6小时的总制备时间内处理样品。这是与使用CLIA实验室中所用的基于PCR的方法的9小时和两个HamiItonSTAR相比。每个样品提取的cfDNA的量平均为6〇pgAU,并且测量文库输出的产率与cfDNA输入线性相关R2=O.94,如图9所示。平均回收率大于70%添加范围),表明在SPRI珠粒纯化后高效回收cfDNA。每个测试运行使用多路复用的归一化量的48个样品,并且花费大约14小时来完成。唯一定位成对读取的中值为XXXM,其中95%的样品高于YYY。[0665]配对末端测序[0666]NextSeq500上每48-样品批次的总测序时间少于14小时。这与HiSeq2500上的实验室方法为40小时(1个流通池,96个样品)或50个小时(2个流通池,192个样品)相比较。CfDNA片段两端的定位基因组位置提供了CfDNA片段尺寸信息。图10显示了从具有男性胎儿的妊娠的324个样品测量的CfDNA片段尺寸分布。定位至已知为整倍体的常染色体且主要代表母体染色体的片段的尺寸由薄曲线表示。插入物的平均尺寸为175bp,其中XX%的片段测量在IOObp和200bp之间。粗曲线表示仅由代表胎儿cfDNA片段的Y染色体产生的片段尺寸。来自Y染色体特定序列的尺寸分布较小,平均167bp,在较短的片段尺寸下具有10个碱基的周期性。[0667]由于cfDNA的较短片段富含胎儿DNA,因此由于优先选择胎儿读取,预期仅使用较短片段的选择性分析会增加相对的胎儿表征。图11显示了与来自小于150bp的配对末端读取的计数相比的来自定位的配对末端读取的总计数的相对胎儿分数。总之,中值胎儿分数与总数相比增加了2倍,尽管方差有所增加。发现150bp的尺寸截断提供了计数的最佳权衡,胎儿表征与计数的方差相比增加。[0668]检测胎儿全染色体非整倍性[0669]对每个可用的度量、总计数、小于150bp的计数、富含胎儿cfDNA的计数分数在80和150bp之间的计数〈250bp的计数和较短的片段计数与分数的组合进行了测试以区分21三体样品与21号染色体中的那些整倍体的能力。图12显示了这些指标中的每一个的结果。总计数具有XX计数的中值,而小于150bp的计数具有YY计数的中值。然而,可如图4A和4B所示,较小的计数显示21三体和整倍体之间的更好分离,主要是因为该度量对于胎儿cfDNA而言是富集的。单独的分数几乎与区分非整倍性的总计数一样有效(图4C,但当与短片段计数组合使用时(图4D仅提供相对于仅短片段计数的改善的区分。这表明该分数提供了增强了21三体的检测的独立信息。当与使用用PCR扩增进行并且中值为16M计数样品的文库制备的目前CLIA实验室工作流程相比时,无PCR的配对末端测序工作流程显示相等的性能,具有显著更少的计数样品(如,6M计数样品或更少和更简单、更短的样品制备工作流程。[0670]胎儿分数的计算[0671]使用来自具有男性胎儿的妊娠的X染色体结果,可以利用归一化染色体值来确定计数的胎儿分数ClinChem参考文献),并比较不同的cfDNA片段尺寸。来源于X染色体的胎儿分数用于校准一组140个样品的比率,并使用留一交叉验证来估计性能。图13显示了交叉验证的胎儿分数预测的结果,并证明了两个数据集之间的相关性,表明一旦测量了校准集,胎儿分数估值可以从任何样品中获得,包括来自携带女性胎儿的妇女的样品。[0672]过造[0673]已经证明,使用无PCR文库制备结合配对末端DNA测序,可以实现母体血液中cfDNA的胎儿非整倍性检测的高分析灵敏度和特异性。该方法简化了工作流程,提高了周转时间图8,并且应该消除PCR方法固有的一些偏差。配对末端测序允许确定片段长度尺寸和胎儿分数,与目前实施的商业方法相比,其可以进一步用于增强在显着更低的标签计数下的非整倍性的检测。无PCR配对末端实施方式的表现似乎类似于使用高达三倍的标签数量的单末端测序方法。[0674]文库加工的简化[0675]无PCR工作流程具有若干个用于临床实验室的优势。由于文库制备的高产率和线性行为,可以直接从各个样品文库浓度制作用于测序的样品的归一化汇集物。由此消除了文库制备方法的PCR扩增中固有的偏差。此外,不需要在PCR活动前和后分离单独的液体处理器;这减少了实验室的资金负担。这个简化的工作流程允许在临床实验室的单个轮班内准备各批次的样品,然后进行测序并分析过夜。总之,减少资本支出,减少"实际操作"时间和快速周转允许潜在地显著减少NIPT的成本和整体稳定性。[0676]配对末端测序[0677]在NextSeq500系统上使用配对末端测序对于对CfDNA片段进行计数有数个优势。首先,使用双索引条形码,可以以高水平多路复用样品,从而允许具有高统计置信度的运行-至-运行变异的归一化和校正。此外,由于每次运行多路复用多样化48个样品,并且用于聚类的流动池所需的量是有限的,每样品的输入要求显著降低,允许使用无PCR文库工作流程。凭借其典型的cfDNA产率约为5ng样品),研究人员即使没有PCR扩增也能够获得每样品2-3次测序。这与需要从多个血液管输入大量血液以产生足够的CfDNA用于非整倍性测定REF的其它方法形成对比。最后,配对末端测序允许确定胎儿cfDNA的cfDNA片段尺寸和分析富集。[0678]胎儿全染色体非整倍性的检测[0679]我们的结果表明,低于150bp的cfDNA片段的计数能够比总计数更好地区分非整倍性和整倍体染色体。这一观察结果与Fan等人的结果形成对比,后者认为由于可用计数的数量减少,使用较短的片段Fan等人可以减少计数统计量的精确度。如Yu等人所暗示的,短片段的分数也为21三体检测提供了一些区分,尽管动态范围小于计数。然而,结合计数和分数度量导致三体样品与整倍体的最佳分离,并暗示这两个度量是染色体表征的互补测量。其它生物度量,如甲基化,也可能提供可以增强非整倍性检测的信噪比的正交信息。[0680]胎儿分数的计算[0681]此处呈现的方法还允许估计每样品中的胎儿分数,而无需产生额外的实验室工作。在每个流动池上有许多样品,其中大约一半是雄性,通过用从男性样品中确定的胎儿分数校准来自片段尺寸信息的胎儿分数测量值,可以获得所有样品的精确胎儿分数估值。在商业环境中,研究人员的临床经验表明,即使没有特定的胎儿分数测量REF,使用大量单末端标签的标准计数方法也导致非常低的假阴性率。鉴于此处观察到的检测的类似限制,预期有等效的测试性能。[0682][0683]已经证明,使用无PCR文库制备结合配对末端DNA测序,可以实现母体血液中CfDNA的胎儿非整倍性检测的高分析灵敏度和特异性。这种简化的工作流程具有非常快的周转时间,可能允许以显著更低的成本执行NIPT以用于一般产科群体。此外,配对末端测序技术有测量其它生物现象以及提供其它临床应用的潜能。例如,来自基因组或CpG岛的甲基化特定区域的尺寸信息可以提供另一个正交度量,用于增强跨基因组的拷贝数变体的检测。[0684]在不脱离本公开的精神或本质特征的情况下,本公开可以以其它特定形式实施。所描述的实施方案在所有方面都应被认为仅是说明性的而非限制性的。因此,本公开的范围由所附权利要求而不是前面的描述指示。在权利要求的等效性的含义和范围内的所有变化都应包含在其范围内。

权利要求:1.用于确定测试样品中的目标核酸序列的拷贝数变异CNV的方法,所述测试样品包含源自两个或更多个基因组的无细胞核酸片段,所述方法包括:a接收通过对所述测试样品中的所述无细胞核酸片段进行测序所获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c确定所述测试样品中存在的至少一些无细胞核酸片段的片段尺寸;d对于每个箱,通过以下计算所述参考基因组箱的序列标签的覆盖率:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素导致的箱间变异,将与所述箱比对的序列标签的数量归一化;e使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率来确定所述目标序列的t_统计量;以及f使用从所述t_统计量计算的似然比和关于所述无细胞核酸片段尺寸的信息,确定所述目标序列中的拷贝数变异。2.如权利要求1所述的方法,其包括进行d和e两次,一次用于第一尺寸域中的片段以及另一次用于第二尺寸域中的片段。3.如权利要求2所述的方法,其中所述第一尺寸域包括所述样品中基本上所有尺寸的无细胞核酸片段,并且所述第二尺寸域仅包括小于限定尺寸的无细胞核酸片段。4.如权利要求2所述的方法,其中所述第二尺寸域仅包括小于约150bp的无细胞核酸片段。5.如权利要求2所述的方法,其中由使用第一尺寸范围内的片段的序列标签的目标序列的第一t-统计量,以及使用第二尺寸范围内的片段的序列标签的目标序列的第二t-统计量来计算所述似然比。6.如权利要求1所述的方法,其中将所述似然比计算为所述测试样品是非整倍体样品的第一似然性除以所述测试样品是整倍体样品的第二似然性。7.如权利要求1所述的方法,其中除了所述t-统计量和关于无细胞核酸片段尺寸的信息之外,从胎儿分数的一个或多个值计算所述似然比。8.如权利要求7所述的方法,其中所述胎儿分数的一个或多个值包括使用所述关于无细胞核酸片段尺寸的信息所计算的胎儿分数的值。9.如权利要求8所述的方法,其中通过以下计算所述胎儿分数的值:获得所述片段尺寸的频率分布;和将所述频率分布应用于使胎儿分数与片段尺寸频率相关联的模型,以获得所述胎儿分数值。10.如权利要求8所述的方法,其中所述使胎儿分数与片段尺寸频率相关联的模型包括具有对于多个片段尺寸的多个项和系数的一般线性模型。11.如权利要求7所述的方法,其中所述胎儿分数的一个或多个值包括使用所述参考基因组的箱的覆盖率信息所计算的胎儿分数的值。12.如权利要求11所述的方法,其中通过以下来计算所述胎儿分数的值:将多个箱的覆盖率值应用于使胎儿分数与箱覆盖率相关联的模型,以获得胎儿分数值。13.如权利要求12所述的方法,其中所述使胎儿分数与箱覆盖率相关联的模型包括具有对于多个箱的多个项和系数的一般线性模型。14.如权利要求13所述的方法,其中所述多个箱在训练样品中具有胎儿分数和覆盖率之间的高度相关性。15.如权利要求7所述的方法,其中所述胎儿分数的一个或多个值包括使用在所述读取中发现的多个8-聚体的频率所计算的胎儿分数的值。16.如权利要求15所述的方法,其中通过以下计算所述胎儿分数的值:将多个8-聚体的频率应用于使胎儿分数与8-聚体频率相关联的模型,以获得所述胎儿分数值。17.如权利要求16所述的方法,其中所述使胎儿分数与8-聚体频率相关联的模型包括具有对于多个8-聚体的多个项和系数的一般线性模型。18.如权利要求17所述的方法,其中所述多个8-聚体具有胎儿分数和8-聚体频率之间的尚度相关性。19.如权利要求7所述的方法,其中所述胎儿分数的一个或多个值包括使用性染色体箱的覆盖率信息所计算的胎儿分数的值。20.如权利要求7所述的方法,其中所述似然比是从胎儿分数、短片段的t-统计量和所有片段的t统计量所计算的,其中所述短片段是在小于标准尺寸的第一尺寸范围内的无细胞核酸片段,并且所述所有片段是包括短片段和长于标准尺寸的片段的无细胞核酸片段。21.如权利要求20所述的方法,其中由以下计算所述似然比:其中P1表示数据来自代表3拷贝或1拷贝模型的多元正态分布的似然性,pc表示数据来自代表2拷贝模型的多元正态分布的似然性,T短、T所有是由短片段和所有片段产生的染色体覆盖率所计算的T评分,以及qff@是胎儿分数的密度分布。22.如权利要求1所述的方法,其中除了所述t-统计量和关于无细胞核酸片段尺寸的信息之外,从胎儿分数的一个或多个值计算所述似然比。23.如权利要求1所述的方法,其中计算X单体、X三体、13三体、18三体或21三体的似然比。24.如权利要求1所述的方法,其中将序列标签的数量归一化包括:针对所述样品的GC含量归一化,针对训练组的变异的全局波谱归一化,和或针对从主组分分析获得的一个或多个组分归一化。25.如权利要求1所述的方法,其中所述目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。26.如权利要求1所述的方法,其中所述参考区域选自:所有稳定染色体、不包含所述目标序列的稳定染色体、至少所述目标序列之外的至少一条染色体,以及选自所述稳定染色体的染色体亚组。27.如权利要求26所述的方法,其中所述参考区域包括已被确定能为一组训练样品提供最佳信号检测能力的稳定染色体。28.如权利要求1所述的方法,其还包括:对于每个箱,通过以下计算箱的尺寸参数的值:i由所述箱中无细胞核酸片段的尺寸确定所述尺寸参数的值,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将所述尺寸参数的值归一化;和使用所述目标序列中的箱的尺寸参数的值和所述目标序列的参考区域中的箱的尺寸参数的值,来确定所述目标序列的基于尺寸的t-统计量。29.如权利要求28所述的方法,其中由所述t-统计量和所述基于尺寸的t-统计量计算f的似然比。30.如权利要求28所述的方法,其中由所述基于尺寸的t-统计量和胎儿分数计算f的似然比。31.如权利要求1所述的方法,其还包括将所述似然比与调用标准进行比较,以确定所述目标序列中的拷贝数变异。32.如权利要求31所述的方法,其中在与所述调用标准进行比较之前,将所述似然比转换为log似然比。33.如权利要求31所述的方法,其中通过将不同标准应用于训练样品的训练组并选择提供限定的灵敏度和限定的选择性的标准来获得所述调用标准。34.如权利要求1所述的方法,其还包括获得多个似然比,并将所述多个似然比应用于决策树以确定所述样品的倍性情况。35.如权利要求1所述的方法,其还包括获得多个似然比和目标序列的一个或多个覆盖率值,并将多个似然比和所述目标序列的一个或多个覆盖率值应用于决策树以确定所述样品的倍性情况。36.用于评估测试样品中目标核酸序列的拷贝数的系统,所述系统包括:测序仪,其用于接收来自所述测试样品的核酸片段并提供所述测试样品的核酸序列信息;处理器;和一个或多个计算机可读存储介质,其上存储有用于在所述处理器上执行的以下指令:a接收通过对所述测试样品中的无细胞核酸片段进行测序而获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含所述目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c确定所述测试样品中存在的至少一些无细胞核酸片段的片段尺寸;d对于每个箱,通过以下计算所述参考基因组的箱的序列标签的覆盖率:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与所述箱比对的序列标签的数量归一化;e使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率来确定所述目标序列的t_统计量;和f使用由所述t_统计量和关于无细胞核酸片段尺寸的信息所计算的似然比,确定所述目标序列中的拷贝数变异。37.用于确定包含源自两个或更多个基因组的无细胞核酸片段的测试样品中的目标核酸序列的拷贝数变异CNV的方法,所述方法包括:a接收通过对所述测试样品中的所述无细胞核酸片段进行测序而获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中参考基因组被分为多个箱;c对于每个箱,通过以下计算所述参考基因组箱的序列标签的覆盖率:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与所述箱比对的序列标签的数量归一化;d使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率来确定所述目标序列的t_统计量;e估计所述测试样品中的无细胞核酸片段的一个或多个胎儿分数值;和f使用所述t_统计量和所述一个或多个胎儿分数值,确定所述目标序列中的拷贝数变异。38.如权利要求37所述的方法,其中(f包括从所述t-统计量和所述一个或多个胎儿分数值计算似然比。39.如权利要求38所述的方法,其中计算X单体、X三体、13三体、18三体或21三体的似然比。40.如权利要求37所述的方法,其中将序列标签的数量归一化包括:针对所述样品的GC含量归一化,针对训练组的变异的全局波谱归一化,和或针对从主组分分析获得的一个或多个组分归一化。41.如权利要求37所述的方法,其中所述目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。42.用于评估测试样品中目标核酸序列的拷贝数的系统,所述系统包括:测序仪,其用于接收来自所述测试样品的核酸片段并提供所述测试样品的核酸序列信息;处理器;和一个或多个计算机可读存储介质,其上存储有用于在所述处理器上执行的以下指令:a接收通过对所述测试样品中的无细胞核酸片段进行测序而获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含所述目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c对于每个箱,通过以下计算所述参考基因组的箱的序列标签的覆盖率:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与所述箱比对的所述序列标签的数量归一化;d使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率来确定所述目标序列的t_统计量;e估计所述测试样品中的无细胞核酸片段的胎儿分数;和f使用所述t-统计量以及关于胎儿分数和无细胞核酸片段尺寸的信息,确定所述目标序列中的拷贝数变异。43.用于确定测试样品中的目标核酸序列的拷贝数变异CNV的方法,所述测试样品包括来源于两个或多个基因组的无细胞核酸片段,所述方法包括:a接收通过对所述测试样品中的无细胞核酸片段进行测序而获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c确定所述测试样品中存在的无细胞核酸片段的片段尺寸;d使用具有在第一尺寸域内的尺寸的无细胞核酸片段的序列标签,计算所述参数基因组的箱的序列标签覆盖率;e使用具有在第二尺寸域内的尺寸的无细胞核酸片段的序列标签,计算所述参数基因组的箱的序列标签覆盖率,其中所述第二尺寸域不同于所述第一尺寸域;f使用c中确定的片段尺寸,计算所述参考基因组的箱的尺寸特征;和g使用d和e中计算的覆盖率和f中计算的尺寸特征,确定所述目标序列中的拷贝数变异。44.如权利要求43所述的方法,其中所述第一尺寸域包括所述样品中基本上所有尺寸的无细胞核酸片段,并且所述第二尺寸域仅包括小于限定尺寸的无细胞核酸片段。45.如权利要求44所述的方法,其中所述第二尺寸域仅包括小于约150bp的无细胞核酸片段。46.如权利要求43所述的方法,其中所述目标序列是选自以下的人染色体:13号染色体、18号染色体、21号染色体、X染色体和Y染色体。47.如权利要求43所述的方法,其中(g包括使用(d和或(e中计算的目标序列中的箱覆盖率来计算所述目标序列的t-统计量。48.如权利要求47所述的方法,其中计算所述目标序列的t-统计量包括使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率。49.如权利要求43所述的方法,其中(g包括使用(f中计算的目标序列中的箱的尺寸特征来计算所述目标序列的t-统计量。50.如权利要求49所述的方法,其中计算所述目标序列的t-统计量包括使用所述目标序列中的箱的尺寸特征和所述目标序列的参考区域中的箱的尺寸特征。51.如权利要求43所述的方法,其中箱的尺寸特征包括所述箱中的小于限定值的尺寸的片段与总片段的比率。52.如权利要求43所述的方法,其中(g包括由所述t-统计量来计算似然比。53.如权利要求43所述的方法,其中(g包括由使用(d中计算的覆盖率的来自所述目标序列的第一t-统计量以及使用(e中计算的覆盖率的来自所述目标序列的第二t-统计量,计算似然比。54.如权利要求43所述的方法,其中(g包括由使用(d中计算的覆盖率的来自所述目标序列的第一t-统计量、使用(e中计算的覆盖率的来自所述目标序列的第二t-统计量以及使用f中计算的尺寸特征的来自所述目标序列的第三t-统计量,计算似然比。55.如权利要求53或54所述的方法,其中除了至少第一t-统计量和第二t-统计量之外,由胎儿分数的一个或多个值计算所述似然比。56.如权利要求55所述的方法,其还包括使用关于无细胞核酸片段尺寸的信息来计算所述胎儿分数的一个或多个值。57.如权利要求55所述的方法,其还包括使用所述参考基因组的箱覆盖率信息来计算所述胎儿分数的一个或多个值。58.如权利要求55所述的方法,其中所述胎儿分数的一个或多个值包括使用性染色体的箱覆盖率信息计算的胎儿分数的值。59.如权利要求55所述的方法,其中计算X单体、X三体、13三体、18三体或21三体的似然比。60.如权利要求43所述的方法,其中d和或e包括:i确定与所述箱比对的序列标签的数量,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将与所述箱比对的序列标签的数量归一化。61.如权利要求60所述的方法,其中将序列标签的数量归一化包括:针对所述样品的GC含量归一化,针对训练组的变异的全局波谱归一化,和或针对从主组分分析获得的一个或多个组分归一化。62.如权利要求43所述的方法,其中(f包括对于每个箱,通过以下计算箱尺寸参数的值:i由所述箱中无细胞核酸片段的尺寸来确定所述尺寸参数的值,和ii基于由于拷贝数变异以外的因素所导致的箱间变异,将所述尺寸参数的值归一化。63.用于评估测试样品中目标核酸序列的拷贝数的系统,所述系统包括:测序仪,其用于接收来自所述测试样品的核酸片段并提供所述测试样品的核酸序列信息;处理器;和一个或多个计算机可读存储介质,其上存储有用于在所述处理器上执行的以下指令:a接收通过对所述测试样品中的无细胞核酸片段进行测序而获得的序列读取;b将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含所述目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;c确定所述测试样品中存在的无细胞核酸片段的片段尺寸;d使用具有在第一尺寸域内的尺寸的无细胞核酸片段的序列标签,计算所述参考基因组箱的序列标签覆盖率;e使用具有在第二尺寸域内的尺寸的无细胞核酸片段的序列标签,计算所述参考基因组箱的序列标签覆盖率,其中所述第二尺寸域不同于所述第一尺寸域;f使用c中确定的片段尺寸,计算所述参考基因组的箱的尺寸特征;和g使用d和e中计算的覆盖率以及f中计算的尺寸特征,确定所述目标序列中的拷贝数变异。

百度查询: 维里纳塔健康公司 使用无细胞DNA片段尺寸以确定拷贝数变异

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。