【发明授权】一种提升测序平台文库拆分率的标签序列混库方法和装置_深圳华大基因股份有限公司_201610962942.7

申请/专利权人：深圳华大基因股份有限公司

申请日：2016-10-28

公开（公告）日：2021-04-27

公开（公告）号：CN108018607B

主分类号：C40B20/04(20060101)

分类号：C40B20/04(20060101);C12Q1/6869(20180101)

优先权：

专利状态码：有效-授权

法律状态：2021.04.27#授权;2018.06.05#实质审查的生效;2018.05.11#公开

摘要：本发明公开了一种提升测序平台文库拆分率的标签序列混库方法和装置。所述方法包括：将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。本发明的方法对标签序列的碱基作转化处理，并且设定两两混库的差异标准，根据设置的标签序列混库组合规则，确保标签序列测序成功率达到100％，标签序列的拆分率达到90％以上。

主权项：1.一种提升测序平台文库拆分率的标签序列混库方法，其特征在于，所述方法包括：将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。

全文数据：一种提升测序平台文库拆分率的标签序列混库方法和装置技术领域[0001]本发明涉及测序技术领域，尤其涉及一种提升测序平台文库拆分率的标签序列混库方法和装置。背景技术[0002]测序平台，尤其是Illumina测序平台要求测序同一个循环cycle的碱基较为平衡，即最好保证每个循环每个碱基含量在25%左右。如果达不到要求，由于A、C碱基共用红激光，G、T碱基共用绿激光，至少也要保证每个循环要分别存在两个激发光中的1个碱基以保障机器能正常聚焦和运行，否则会在相应的循环出现测序质量差或者读N情况。[0003]标签序列（index，例如华大基因研发的不同标签序列的编号对应的序列差异各异，按照现有的标签序列两两混库pooling，或称池化方法，无法保证每个循环都至少能存在两种激发光中各自对应的1个碱基。因而在实际标签序列测序时，出现了标签序列个别循环读N，影响文库拆分率或者整体标签序列数据较差，直接导致数据无法拆分或者拆分率低。发明内容[0004]本发明针对现有标签序列测序拆分率低的问题，提供一种提升测序平台文库拆分率的标签序列混库方法和装置。[0005]根据本发明的第一方面，本发明提供一种提升测序平台文库拆分率的标签序列混库方法，包括：[0006]将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；[0007]选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。[0008]进一步地，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B〇[0009]进一步地，上述标签序列的长度是4-10个碱基，优选6-8个碱基。[0010]进一步地，选取二者转换后在多4个位置有差异的序列进行混库。[0011]进一步地，上述测序平台是IlluminaHiseqMiseq测序平台。[0012]根据本发明的第二方面，本发明提供一种提升测序平台文库拆分率的标签序列混库装置，包括：[0013]序列转换单元，用于将多个标签序列中每个位置的A、c碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；[00M]序列比对单元，用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。[0015]进一步地，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B〇L〇〇16」进一步地，上述标签序列的长度是4-10个碱基，优选6-8个碱基。[0017]进一步地，选取二者转换后在个位置有差异的序列进行混库。[0018]进一步地，上述测序平台是IlluminaHiseqMiseq测序平台。[0019]本发明的标签序列混库方法，对标签序列的碱基作转化处理，并且设定两两混库的差升标准，根据设置的标签序列混库（indexpooling组合规则，确保标签序列测序成功率达到100%，标签序列的拆分率达到90%以上。附图说明[0020]图1为本发明一个实施方案的标签序列混库方法的流程图。[0021]图2为本发明一个实施方案的标签序列混库装置的结构框图。[0022]图3:^发明实施例1中标签序列混库组合的实际测序标签序列的拆分率情况；图中Library表示文库，Index表示标签序列，mismatch表示错配，Total表示总计，Reads表示读段数，Bases表示碱基数，Sum表示合计。_3]图4为$发明实施例2中标签序列混库组合丨）的实际测序标签序列的拆分率情况；图中Library表示文库，Index表示标签序列，mismatch表示错配，Total表示总计，Reads表不读段数，Bases表不碱基数，Sum表示合计。[0024]图5为f发明实施例2中标签序列混库组合2的实际测序标签序列的拆分率情况；，中Library表示文库，Index表示标签序列，mismatch表示错配，Total表示总计，[^的扣表不读段数，Bases表不碱基数，Sum表示合计。[0025]图6为本发明实施例3中两个混库文库的实际测序标签序列的拆分率情况；图中Library表不文库，Index表不标签序列，mismatch表示错配，Total表示总计，Reads表示读段数，Bases表示碱基数，Sum表示合计。[0026]图I为本发明对比例1中3个混库文库的实际测序标签序列的拆分率情况；图中Library表不文库，Index表不标签序列，mismatch表示错配，Total表示总计，Reads表示读段数，Bases表示碱基数，Sum表示合计。具体实施方式[0027]下面通过具体实施方式结合附图对本发明作进一步详细说明。[0028]本发明中，所谓“标签序列（index”是指在测序中用于区分不同测序序列的短核苷酸序列，一般用来区分不同来源的样本，标签序列可以是测序接头或引物序列的一部分。使用标签序列能够将不同的样本，例如不同来源如不同的文库）的样本混合在一起上机测序。测序之后的序列分别都带有各自的标签序列，按照标签序列对不同样本进行拆分，在进行后续信息学的分析。因此，拆分率成为衡量标签序列有效性的重要指标。[0029]标签序列拆分率与标签序列测序成功率，是两个有相互关联也有区别的概念。由于测序平台本身存在一定测序错误率，无法实现标签序列完全100%拆分。标签序列测序成功率的定义是标签序列拆分率达到9〇%以上，后面的数据标签序列拆分率均达到了90%，就认为标签序列测序成功率为100%。[0030]本发明中，混库（pooling也称为池化，就是指至少两种不同标签序列的混合使用，在实际应用中通常涉及两种标签序列的混库，因此本发明主要涉及的是两两标签序列y民库（indexpooling〇[0031]如图1所示，本发明的一个实施方案的标签序列混库方法包括如下步骤：[0032]S102:将多个标签序列中每个位置的A、c碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列。[0033]本发明之所以将每个位置的A、c碱基替换为同一个符号，将G、T碱基替换为另一个符号，其依据是在测序平台上，尤其是Illumim^〗序平台（例如IlluminaHiseqMiseq测序平台）上，A、C碱基共用红激光，G、T碱基共用绿激光。[0034]经过上述^换以后，每一条标签序列都转换成由两种符号表示的序列，从而实现了四种碱基符号表示的标签序列到两种符号表示的标签序列的转化。在此基础上，标签序列之间的差异性比较转化成两种符号表示的标签序列之间每一对应位置的符号差异的比较。[0035]在本发明中，用于替换A、C碱基的符合以及用于替换G、T碱基的符合可以是任何可识别的两种有差异的符号，不限于某种特定的符号。在使用计算机运行的情况下，任何可被计算机识别的符合均可作为本发明中的符号使用。从简便的角度出发，在本发明的一个优选的实施方案中，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B。[0036]S104:选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。[0037]在进行测序数据的后续数据拆分时，标签序列的拆分允许碱基容错1个错配或者2个呵以拆分，即两两标签序列对应循环序列之间的差异必须要大于2个。也就是，对于由两个标签序列组成的标签序列组合，在转换后需要在大于2个位置有差异，才能作为可以进行混库的序列组合。[0038]标签序列的长度一般在4-10个碱基，优选e-S个碱基。标签序列组合中的两两序列应当具有相同的序列长度。例如，华大基因开发使用的标签序列一般具有8个碱基的长度。在此情况下，转换后需要在大于2个位置有差异，例如在3个、4个、5个、6个、7个或8个位置有差异。一般而言，在3个位置有差异即可实现9〇%以上的标签序列拆分率和1〇〇%的标签序列测序成功率。然而，为了保证更高的标签序列拆分率，在允许的条件下，最好选用在更多个位置有差异的序列进行两两组合。我们发现，在越多位置有差异的两两序列，越能提高标签序列的拆分率。[0039]需要说明的是，差异位置的个数是指将四个碱基表示的标签序列按照规则转换成两个符号表示的序列以后的差异位置的个数。一般而言，经转换以后差异位置的个数会减少，例如对于两条有8个碱基的标签序列，在用四个碱基表示的情况下，有5个碱基差异，经转换以后可能只有3个位置差异。从发明的思想而言，本发明并不仅是关注序列转换之前的差异位置的个数，更重要的是关注转换之后的差异位置的个数。[0040]对应于本发明的标签序列混库方法，本发明还提供一种标签序列混库装置，如图2所示，包括:序列转换单元2〇2，用于将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列;序列比对单元204，用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。[0041]本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。[0042]以下通过实施例详细说明本发明的技术方案和效果，需要说明的是，实施例仅是示例性的，并不构成对本发明保护范围的限制。[0043]实施例1[0044]2个DNA文库编号分别为:WHBRAootMAAFDEAAPEI-30、HUMggzEAAADAAA-129,将两个文库混库上机注意:实施例中文库名称仅仅是用于区分不同文库的一串符号，没有特定的技术性含义;文库名称后面的数字，如30和129表示标签序列的编号）。[0045]30、129号标签序列的具体核苷酸序列：[0046]30号:GCTTMTG;[0047]129号：ACAGAGTG。[0048]将A、C碱基替换为符号A，将G、T碱基替换为符号B，替换后各标签序列的信息如下：[0049]30号：BABBMro;[0050]129号：AAABABBB。[0051]从上面序列信息可看出标签30和标签129的核苷酸经替换后具有差异的位置共有3个，图3示出了这两个混库文库的实际测序标签序列的拆分率情况，可直观看出拆分率达到了95.74%。[0052]实施例2[0053]对于4个辣椒DNA文库，其文库号分别为：CAPgsdGlAAD96FAAPEI-14、CAPgsdGlABD%FABPEI-39、CAPgsdG2ADD96FAAPEI-45、CAPgsdG2ACD96FAAPEI-4〇;按照数据量要求需要两两文库进行混库上机注意：实施例中文库名称仅仅是用于区分不同文库的一串符号，没有特定的技术性含义;文库名称后面的数字，如14、39、45和40表示标签序歹ij的编号）。[0054]14、39、45和40号标签序列的具体核苷酸序列如下：[0055]1^:AGAGATCT;[0056]39号：TCCAGTAG;[0057]45号：ACTACMG;[0058]40号：TTGTCTAGo[0059]A、C碱基替换为符号A，将G、T碱基替换为符号B，替换后各标签序列的信息如下：[0060]14号:ABAMMB;[0061]39号：BAAAroAB;[0062]45号：AABMAAB;[0063]40号j^BABABo[0064]从上面序列信息可看出标签14和标签40的核苷酸经替换后具有差异的位置共有2个，标签I4和标签39的核苷酸经替换后具有差异的位置共有4个，标签45和标签4〇的核苷酸经替换后具有差异的位置共有4个。将两两标签序列混库组合上机策略制定如下：[0065]组合1CAPgsdGlAAD96FAAPEI-14和CAPgsdGlABD96FABPEI-39;[0066]组合2CAPgsdG2ADD96FAAPEI-45和CAPgsdG2ACD96FAAPEI_40。[0067]将文库混库之后进行上机测序。[0068]图4示出了标签序列混库组合1的实际测序标签序列的拆分率情况，可直观看出拆分率为98.22%。[0069]图5示出了标签序列混库组合2的实际测序标签序列的拆分率情况，可直观看出拆分率为97.99%。[0070]可见，上述标签序列混库组合1和标签序列混库组合2中，各自的拆分率均达到了90%以上，说明标签序列测序质量优异。表明，本发明的方法不仅保障了此数据能够正常拆分，也再次彰显了其对提升数据拆分率即数据有效利用率的有效性。[0071]实施例3[0072]2个DNA文库编号分别为:WHHUMuwoRAAHDEAAPEI-75、WHHUMuwoRAABDEAAPEI-79。[0073]75、79标签序列的具体核苷酸序列：[0074]75号：TACTATGA;[0075]79号：CTTATAGA。[0076]A、C碱基替换为符号A，将G、T碱基替换为符号B，替换后各标签序列的信息如下：[0077]75号：BMBABBA;[0078]79号:ABBABABA。[0079]从上面序列信息可看出标签75和标签79的核苷酸经替换后具有差异的位置共有6个，将两个DNA文库混合上机测序。图6示出了这两个混库文库的实际测序标签序列的拆分率情况，可直观看出拆分率达到了98•31%。[0080]对比例1[0081]3个DNA文库编号分别为：TRDHUMknrTBKRAAPEI_213、TRDHUMknrTBLRAAPEI-214、TRDHUMknrTBMRAAPEI-215。[0082]213、214、215标签序列的具体核苷酸序列：[0083]213号：八01^八；[0084]214号^6170：;[0085]215号:八丁0扣八。[0086]在本发明之前的现有技术中，只要标签序列编号不同的文库即可混库上机，故安排其进行了上机测序。[0087]图7示出了截取的这3个混库文库的实际测序标签序列的拆分率情况，可直观看出拆分率为46.14%。这导致一条道lane损失了一半多的数据量。[0088]按照本发明的转换规则，分析标签序列213、214和215号。A、C碱基替换为符号A，将G、T碱基替换为符号B，替换后各标签序列的信息如下：[0089]213号^83八八八；[0090]214号:八888魈；[0091]215号：ABBBAA。[0092]从上面序列信息发现其组成碱基转换后其仅在第4位碱基存在差异。[0093]该对比例的结果再次表明本发明的方法对提升数据拆分率即数据有效利用率的有*%十生。[0094]以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若千简单推演或替换，都应当视为属于本发明的保护范围。

权利要求：1.一种提升测序平台文库拆分率的标签序列混库方法，其特征在于，所述方法包括：将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。2.根据权利要求1所述的标签序列混库方法，其特征在于，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B。3.根据权利要求1所述的标签序列混库方法，其特征在于，所述标签序列的长度是4_10个碱基，优选6-8个碱基。4.根据权利要求1所述的标签序列混库方法，其特征在于，选取二者转换后在个位置有差异的序列进行混库。5.根据权利要求1-4任一项所述的标签序列混库方法，其特征在于，所述测序平台是IlluminaHiseqMiseq测序平台。6.—种提升测序平台文库拆分率的标签序列混库装置，其特征在于，所述装置包括：序列转换单元，用于将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；序列比对单元，用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。7.根据权利要求6所述的标签序列混库装置，其特征在于，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B。8.根据权利要求6所述的标签序列混库装置，其特征在于，所述标签序列的长度是4-10个碱基，优选6-8个碱基。9.根据权利要求6所述的标签序列混库装置，其特征在于，选取二者转换后在多4个位置有差异的序列进行混库。10.根据权利要求6-9任一项所述的标签序列混库装置，其特征在于，所述测序平台是IlluminaHiseqMiseq测序平台。

百度查询：深圳华大基因股份有限公司一种提升测序平台文库拆分率的标签序列混库方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：消防救援中多设备协同的交互控制系统_东莞理工学院_202310667377.1

下一篇：光学膜片与背光模块_四川龙华光电薄膜股份有限公司_202211299447.4

相关技术

消防救援中多设备协同的交互控制系统_东莞理工学院_202310667377.1

光学膜片与背光模块_四川龙华光电薄膜股份有限公司_202211299447.4

显示面板及其制备方法、显示装置_深圳市华星光电半导体显示技术有限公司_202410042140.9

一种管理消息分区的方法及装置_三六零数字安全科技集团有限公司_202211353371.9

配线基板_矢崎总业株式会社_202311285451.X

隐私保护图像传感器_豪威科技股份有限公司_202310919691.4

一种短消息路由方法及相关设备_中国电信股份有限公司_202211350552.6

一种栓接桥梁结构安装三维姿态控制方法_重庆交通大学_202311485642.0

文本处理方法及装置_马上消费金融股份有限公司_202311257639.3

文档处理方法及相关装置_马上消费金融股份有限公司_202311300359.6

针对SAR ADC的分裂电容模组及相应的开关方法_深圳大学_202311804036.0

信道探测参考信号SRS的发送方法和电子设备_荣耀终端有限公司_202211349911.6

序列相关技术

基于序列同源性的特定生物序列预测方法及其系统_电子科技大学长三角研究院(衢州)_202410326309.3

促进T细胞外源性蛋白表达的序列及应用_启程医学科技(山东)有限公司_202410157574.3

基于代理模型的序列加点优化方法_上海交通大学四川研究院_202410348902.8

不完整时间序列修补方法及系统_上海交通大学_202410138575.3

空间时间序列数据补全方法、设备及介质_中南大学_202410299450.9

IRES-W3-31序列及其应用_北京衡昱生物科技有限公司_202311864473.1

用于多个线程的序列监测的方法和设备_宝马汽车股份有限公司_202280062974.5

一种基于KPHAN的序列推荐方法_湖南大学_202210416700.3

编辑核酸序列的组合物及方法_许景焜_201780079593.7

一种基于序列匹配的无人机视觉定位方法及装置_中国人民解放军32806部队_202311755099.1

拆分相关技术

一种通过生物酶法拆分制备(+)-crispine A的方法_上海应用技术大学_202410104642.X

基于领域事件驱动的单体系统微服务拆分方法_天津大学_202111190359.6

一种多中文词组的拆分处理方法及装置_武汉杏仁桉科技有限公司_202410070090.5

通过动态动力学拆分获取1S,5R-水合蒎醇的方法_上海交通大学_202311682085.1

一种带有辅助拆分组件的井盖_武安市永天铸业有限公司_202322394763.6

一种可拆分的收款机构_平安云厨科技集团有限公司_202322131869.7

一种服务器后端任务异步拆分方法_中企云链股份有限公司_202111014078.5

基于多维度配置的账单文件拆分方法和系统_苏州思客科技(集团)有限公司_202410100926.1

一种3-烷基双环[3.2.0]庚-3-烯-6-酮的拆分方法_北京海步医药科技有限公司_202410070002.1

配置文件的合并、拆分处理方法及装置_中盈优创资讯科技有限公司_201911227563.3

标签相关技术

一种连续纸标签、标签打印机及余量测算方法_武汉精臣智慧标识科技有限公司_202410346412.4

一种标签的处理方法_沐曦集成电路(上海)有限公司_202410356367.0

一种标签检测结构_江苏联恒物宇科技有限公司_202410214310.7

一种贴标签装置_深圳市顺鑫昌文化股份有限公司_202410189085.6

一种基于区域划分的标签压缩方法_网络通信与安全紫金山实验室_202010620689.3

一种可移标签用热熔压敏胶_黄山市信德成胶业有限公司_202410017545.7

一种塑料标签夹模具顶推装置_福州鑫泰威工贸有限公司_202322560365.7

文本标签确定方法、装置、终端及可读存储介质_腾讯科技(深圳)有限公司_202011065821.5

一种针纺织袜打标签机_安徽屹步坊袜业有限公司_202322395942.1

一种含RFID标签的轮胎_中策橡胶集团股份有限公司_202410228473.0

龙图腾网&IPTOP

【发明授权】一种提升测序平台文库拆分率的标签序列混库方法和装置_深圳华大基因股份有限公司_201610962942.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务