【发明授权】基因聚类方法和基于该方法的宏基因组组装方法和装置_深圳华大基因股份有限公司_201611090611.5

申请/专利权人：深圳华大基因股份有限公司

申请日：2016-12-01

公开（公告）日：2020-09-15

公开（公告）号：CN108133122B

主分类号：G16B30/20(20190101)

分类号：G16B30/20(20190101)

优先权：

专利状态码：有效-授权

法律状态：2020.09.15#授权;2018.07.03#实质审查的生效;2018.06.08#公开

摘要：本发明公开了一种基因聚类方法和基于该方法的宏基因组组装方法和装置，所述基因聚类方法包括：根据每个基因序列或小基因簇在多个样品中的丰度谱，以及每个大基因簇在多个样品中的丰度谱，通过多元线性回归，计算每个大基因簇与每个基因序列或小基因簇的相关性；找到与每个大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。能够找到多个基因序列或小基因簇的多个源头大基因簇，弥补现有方法的不足，从而增加基因簇的大小，并且获得更好的基因组草图。

主权项：1.一种基因聚类方法，其特征在于，所述方法用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中所述基因簇是指一组有相同来源的基因集合，所述小基因簇是指基因数量小于预设值的基因集合，所述大基因簇是指基因数量大于所述预设值的基因集合；所述方法包括：根据每个所述基因序列或小基因簇在多个样品中的丰度谱，以及每个所述大基因簇在所述多个样品中的丰度谱，通过多元线性回归，计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性；找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇；所述多元线性回归依据如下方程式进行：其中，Eij表示基因序列或小基因簇j在样品i中的相对丰度，aik表示大基因簇k在样品i中的相对丰度，ekj表示基因序列或小基因簇j与大基因簇k的相关性。

全文数据：基因聚类方法和基于该方法的宏基因组组装方法和装置技术领域[0001]本发明涉及基因序列信息分析技术领域，尤其涉及一种基因聚类方法和基于该方法的宏基因组组装方法和装置。背景技术[0002]宏基因组指来源于同一环境中所有微生物基因组的集合，如人肠道宏基因组表示人肠道中存在的所有微生物的基因组。快速发展的第二代DNA测序技术可以有效获取宏基因组数据，通过生物信息技术的进一步分析，解读微生物群落的组成以及解析微生物群落的功能。然而，由于宏基因组由多个基因组混合组成，从宏基因组中解析出单个基因组是研究的一个重点和难点。[0003]目前，已有研究通过基因序列在多样品之间的丰度谱关联信息，将基因序列聚集成基因簇，进而对较大的基因簇进行独立的基因组组装，从而得到单个基因组草图NielsenH.B.等人,NatureBiotechnology，2014。该技术具体步骤如下：（1通过宏基因组组装、基因预测、基因序列去冗余获取多样品特有的非冗余基因序列集合；（2将测序读长序列Reads比对到上一步获取的基因序列集合，计算每个基因在每个样品的丰度，得到基因在多样品中的丰度谱；（3根据基因在多样品的丰度谱，计算基因与基因之间的相关系数，根据相关系数对基因进行聚类，将相关系数满足一定阈值的基因聚集成基因簇；（4将测序Reads比对到较大的基因簇，获取单个基因簇特有的测序Reads，进行单独组装，获得单个基因组草图。[0004]现有技术的关键假设是来源于同一DNA分子的基因序列，在多样品中的丰度谱表现出强的相关性。然而，有一些基因序列同时存在多个基因组，它们的丰度谱由多个基因组决定，并不与其中任何一个基因组有强相关性。现有技术无法将此类型的基因序列聚集到对应的基因族，而且这些基因具有重要的生物功能，如持家基因和核糖体基因等，是基因组的重要组成。发明内容[0005]本发明提出一种基因聚类方法和基于该方法的宏基因组组装方法，本发明的基因聚类方法能够找到多个基因序列或小基因簇的多个源头大基因簇，弥补现有方法的不足，从而增加基因簇的大小，并且获得更好的基因组草图。[0006]根据本发明的第一方面，本发明提供一种基因聚类方法，用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中上述基因簇是指一组有相同来源的基因集合，上述小基因簇是指基因数量小于预设值的基因集合，上述大基因簇是指基因数量大于上述预设值的基因集合;上述方法包括：[0007]根据每个上述基因序列或小基因簇在多个样品中的丰度谱，以及每个上述大基因簇在上述多个样品中的丰度谱，通过多元线性回归，计算每个上述大基因簇与每个上述基因序列或小基因族的相关性；[0008]找到与每个上述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。[0009]进一步地，上述方法中的多元线性回归依据如下方程式进行：[0010][0011]其中，Eij表示基因序列或小基因簇j在样品i中的相对丰度，aik表示大基因簇k在样品i中的相对丰度，ekj表不基因序列或小基因族j与大基因族k的相关性。[0012]进一步地，上述方法还包括使用系数收缩技术计算出上述相关性ekj。[0013]进一步地，上述小基因簇是相似丰度谱基因簇，上述大基因簇是宏基因组物种基因组，在本发明的一个实施例中，上述系数收缩技术是LASSO收缩方法，上述相关性的设定值为0.1。[0014]根据本发明的第二方面，本发明提供一种基因聚类装置，用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中上述基因簇是指一组有相同来源的基因集合，上述小基因簇是指基因数量小于预设值的基因集合，上述大基因簇是指基因数量大于上述预设值的基因集合;上述装置包括：[0015]相关性计算单元，用于根据每个上述基因序列或小基因簇在多个样品中的丰度谱，以及每个上述大基因簇在上述多个样品中的丰度谱，通过多元线性回归，计算每个上述大基因簇与每个上述基因序列或小基因簇的相关性；[0016]基因簇合并单元，用于找到与每个上述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。[0017]根据本发明的第三方面，本发明提供一种宏基因组组装方法，用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中，其中上述基因簇是指一组有相同来源的基因集合，上述小基因簇是指基因数量小于预设值的基因集合，上述大基因簇是指基因数量大于上述预设值的基因集合;上述方法包括：[0018]根据每个上述基因序列或小基因簇在多个样品中的丰度谱，以及每个上述大基因簇在上述多个样品中的丰度谱，通过多元线性回归，计算每个上述大基因簇与每个上述基因序列或小基因族的相关性；[0019]找到与每个上述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇；[0020]将测序读长序列比对至上述新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。[002Ί]进一步地，上述方法中的多元线性回归依据如下方程式进行：[0022][0023]其中，Eij表示基因序列或小基因簇j在样品i中的相对丰度，aik表示大基因簇k在样品i中的相对丰度，ekj表不基因序列或小基因族j与大基因族k的相关性。[0024]进一步地，上述方法还包括使用系数收缩技术计算出上述相关性ekj。[0025]进一步地，上述小基因簇是相似丰度谱基因簇，上述大基因簇是宏基因组物种基因组，在本发明的一个实施例中，上述系数收缩技术是LASSO收缩方法，上述相关性的设定值为0.1。[0026]根据本发明的第四方面，本发明提供一种宏基因组组装装置，用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中，其中上述基因簇是指一组有相同来源的基因集合，上述小基因簇是指基因数量小于预设值的基因集合，上述大基因簇是指基因数量大于上述预设值的基因集合;上述装置包括：[0027]相关性计算单元，用于根据每个上述基因序列或小基因簇在多个样品中的丰度谱，以及每个上述大基因簇在上述多个样品中的丰度谱，通过多元线性回归，计算每个上述大基因簇与每个上述基因序列或小基因簇的相关性；[0028]基因簇合并单元，用于找到与每个上述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇；[0029]基因组组装单元，用于将测序读长序列比对至上述新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。[0030]本发明的基因聚类方法基于基因丰度谱的关联信息，利用多元线性回归方法，寻找与基因序列或小基因簇关联的大基因蔟，提升大基因簇集合，从而提升基因组的组装结果。本发明的基因聚类方法能够有效改进基因聚类效果，得到更有代表性的基因簇;且通过进一步组装获取更好的基因组草图，为深入的生物信息挖掘提供基础。附图说明[0031]图1为本发明实施例的基因聚类方法流程示意图；[0032]图2为本发明实施例的基因聚类装置结构框图；[0033]图3为本发明实施例的宏基因组组装方法流程示意图；[0034]图4为本发明实施例的宏基因组组装装置结构框图；[0035]图5为本发明实施例的CAG578以及9个FaecalibacteriumMGS在396个样品中的丰度谱图；横坐标表示样品，样品顺序按照CAG578的丰度由高到低排列；纵坐标表示基因丰度；[0036]图6为本发明实施例的宏基因组组装结果统计图，灰色柱表示原有研究结果，黑色柱表示运用本发明方法后的结果；纯色填充表示与参考基因组匹配的序列长度，非纯色填充表示不能与参考基因组匹配的序列长度。具体实施方式[0037]下面通过具体实施方式结合附图对本发明作进一步详细说明。[0038]如图1所示，本发明实施例的基因聚类方法，用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中基因簇是指一组有相同来源的基因集合，小基因簇是指基因数量小于预设值的基因集合，大基因簇是指基因数量大于预设值的基因集合。[0039]基因序列是指单个基因序列或片段，基因采用其广泛性含义，包括任何能够表达蛋白质的核苷酸序列和任何其他序列片段。小基因簇是指两个以上基因序列的集合。基因簇是指一组有相同来源的基因集合，例如来源于同一细菌基因组的基因集合。每个基因簇中的基因一般具有相似的丰度谱。小基因簇与大基因簇的划分标准是基因集合中基因的数量多少，一般基因数量小于预设值的基因集合称为小基因簇，而基因数量大于预设值的基因集合称为大基因簇。预设值是人为设定的数值，根据具体需要和应用场景可以设定适当的数值，例如设置为500、600、700或800等。在本发明的一个实施例中，预设值为700，即基因的数量大于700的基因集合称为大基因簇，基因的数量小于700的基因集合称为小基因簇。[0040]本发明实施例的基因聚类方法包括：[0041]Sl10:根据每个基因序列或小基因簇在多个样品中的丰度谱，以及每个大基因簇在多个样品中的丰度谱，通过多元线性回归，计算每个大基因簇与每个基因序列或小基因族的相关性。[0042]基因序列、小基因簇或大基因簇在多个样品中的丰度谱，可以按照现有技术的方法得到，例如依据NieIsenH.B·等人,NatureBiotechnology,2014中公开的方法。具体通过如下步骤实现：（1通过宏基因组组装、基因预测、基因序列去冗余获取多样品特有的非冗余基因序列集合；（2将测序读长序列（Reads比对到上一步获取的基因序列集合，计算每个基因在每个样品的丰度，得到基因在多样品中的丰度谱；（3根据基因在多样品的丰度谱，计算基因与基因之间的相关系数，根据相关系数对基因进行聚类，将相关系数满足一定阈值的基因聚集成基因簇。得到的基因簇根据预设值例如700可以划分为小基因簇和大基因簇，同时根据基因簇中每个基因在每个样品的丰度就可以得到小基因簇或大基因簇在多个样品中的丰度谱。[0043]本发明进行多元线性回归的理论依据是基因序列的丰度是其源头基因组丰度的线性加和。相应的，基因序列或小基因簇的丰度是其源头大基因簇丰度的线性加和。在一个典型但非限定性的实施例中，多元线性回归依据如下方程式进行：[0044][0045]其中，因变量Eij表示基因序列或小基因簇j在样品i中的相对丰度，自变量aik表示大基因族k在样品i中的相对丰度，相关系数ekj表不基因序列或小基因族j与大基因族k的相关性，即表示因变量和自变量的相关性强弱。[0046]在一个典型但非限定性的实施例中，小基因簇是相似丰度谱基因簇（CoabundanceGeneGroup，CAG，大基因族是宏基因组物种MetagenomicsSpecies，MGS基因组。[0047]值得说明的是，当前的生物研究中，很多情况下都是样品数量小于未知系数数量，例如在本发明中有可能样品i数量小于未知系数ekj数量。在这种情况下，需要引入LASSOLeastAbsoluteShrinkageandSelectionOperator，最小绝对收缩和选择算子）、子集回归或岭回归等技术进行系数收缩，计算出方程的解。[0048]S120:找到与每个大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。[0049]在该步骤中，相关性的设定值是人为设定的经验值，在不同应用场景下该值可能不同。在一个典型但非限定性的实施例中，在人肠道中存在的所有微生物的基因组作为人肠道宏基因组，相似丰度谱基因簇Co-abundanceGeneGroup，CAG代表小基因簇，宏基因组物种MetagenomicsSpecies，MGS基因组代表大基因簇的情况下，相关性的设定值为0.1，即大基因族MGS与小基因族CAG之间的相关性大于0.1表不_者之间有强相关性，^者可以合并在一起;大基因簇MGS与小基因簇CAG之间的相关性小于0.1表示二者之间没有强相关性，二者不可以合并在一起。[0050]本发明实施例的基因聚类方法，基于基因丰度谱的关联信息，利用多元线性回归方法，寻找与基因序列或小基因簇关联的大基因蔟，提升大基因簇集合，从而提升基因组的组装结果。此外，本发明实施例的基因聚类方法，在多个领域可以有应用，如RNA测序中基因表达量的计算，宏转录组分析也是本发明的一个潜在应用领域。可以运用本发明的方法解析基因表达量的组成。[0051]对应于本发明实施例的基因聚类方法，本发明还提供一种基因聚类装置，如图2所示，包括:相关性计算单元210,用于根据每个基因序列或小基因簇在多个样品中的丰度谱，以及每个大基因簇在多个样品中的丰度谱，通过多元线性回归，计算每个大基因簇与每个基因序列或小基因簇的相关性;基因簇合并单元220,用于找到与每个大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。[0052]如图3所示，本发明实施例的宏基因组组装方法，用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中，其中基因簇是指一组有相同来源的基因集合，小基因簇是指基因数量小于预设值的基因集合，大基因簇是指基因数量大于预设值的基因集合。[0053]本发明实施例的宏基因组组装方法包括：[0054]S310:根据每个基因序列或小基因簇在多个样品中的丰度谱，以及每个大基因簇在多个样品中的丰度谱，通过多元线性回归，计算每个大基因簇与每个基因序列或小基因族的相关性。[0055]S320:找到与每个大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。[0056]S330:将测序读长序列比对至新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。[0057]对应于本发明实施例的宏基因组组装方法，本发明还提供一种宏基因组组装装置，如图4所示，包括:相关性计算单元410,用于根据每个基因序列或小基因簇在多个样品中的丰度谱，以及每个大基因簇在多个样品中的丰度谱，通过多元线性回归，计算每个大基因簇与每个基因序列或小基因簇的相关性;基因簇合并单元420,用于找到与每个大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇;基因组组装单元430,用于将测序读长序列比对至新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。[0058]本发明的宏基因组组装方法能够有效改进基因聚类效果，得到更有代表性的基因簇;且通过进一步组装获取更好的基因组草图，为深入的生物信息挖掘提供基础。[0059]本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。[0060]以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。[0061]实施例[0062]本实施例选用文章NielsenH.B.等人,NatureBiotechnology,2014中的数据，该数据可以从公开网站http:www.cbs.dtu.dkdatabasesCAG获取。网站上可以下载基因簇的丰度谱文件（名称为CAGabundanceprofiles，该文件包含基因簇在396个样品中的丰度谱信息。其中，CAG指Co-abundanceGeneGroup相似丰度谱基因簇），表示多个具有相似丰度谱的基因聚集成的基因簇，并且基因数量大于700的基因簇被定义为MGSjgMetagenomicsSpecies宏基因组物种），表示宏基因组物种，具体方法在文章中有详细描述。这个数据集合包含6，640个CAG和741个MGS基因簇。[0063]基于CAG和MGS的丰度谱文件，进行如下分析：[0064]1依据公式计算741个MGS对应于每个CAG的回归系数eikj。使用R语言中的软件包，调用LASSO回归分析功能，并且选取截距为0、回归系数非负的设置，其中R语言中的软件包的来源如下：[0065]https:cran.r-project.orgwebpackagespenalizedindex.html〇[0066]2对每个CAG，只保留回归系数大于0.1的MGS;[0067]3统计每个MGS对应的所有关联的CAG;[0068]4将MGS和所有关联CAG合并在一起，组合成新的MGS基因簇；[0069]5将单个样品的测序Reads比对到新的MGS基因簇，之后利用这些Reads进行基因组组装。比对软件可以选用SOAPalignerhttp:soap.genomics.org.cnsoapaligner.html〇[0070]6将组装得到的重叠群Contig序列（表示测序Reads经过拼接后得到的较长的DNA序列）与参考基因组比较，统计比较结果。组装软件可以选用Velvet-schttp:bix.ucsd.eduprojectssinglecell〇[0071]为了展示方便，该实施例选取细菌Faecalibacterium栖奠杆菌属对应的MGS进行展示。栖粪杆菌属是人粪便中广泛存在的一类细菌，普遍存在于人的肠道中。采用的数据中，栖粪杆菌属包含9个MGS，编号分别为:MGS82、MGS97、MGS106、MGS125、MGS128、MGS133、MGS142、MGS195和MGS206,这些MGS可以理解成9个不同的栖粪杆菌属基因组。[0072]经过上述分析，找到与这9个MGS关联的CAG，结果统计参见表一。在基因数量上，这9个MGS有29.18%〜51.58%的提升。更有意思的是，这9个MGS都与CAG578关联;然而，这9个MGS与CAG578在丰度谱上的关联性并不强，如图5所示。这种弱相关性是已有研究方法所不能解决的难点，本发明可以有效解决这一问题，同时找到与CAG578相关联的多个MGS。CAG578包含的基因具有编码核糖体蛋白、代谢相关等重要功能，是基因组的核心组成。进一步的组装结果显示，这9个MGS的基因组在总长度上平均有15.81%的提升，并且与参考基因组匹配的序列长度上平均有13.50%的提升如表二和图6。表明本发明能有效提高基因组的组装结果。[0073]表一:9个栖粪杆菌属的MGS以及关联的CAG统计[0074][0075][0076]表二:9个MGS改进前后的组装结果统计[0077][0078]*参考序列对应和NCBI数据库中四个栖粪杆菌属的参考基因组。A2_165表示FaecalibacteriumprausnitziiA2-165，KLE12555表不FaecaIibacteriumcf.prausnitziiKLE1255，SL3_3表不FaecalibacteriumprausnitziiSL33，L2_6表不FaecalibacteriumprausnitziiL2_6〇[0079]以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

权利要求：1.一种基因聚类方法，其特征在于，所述方法用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中所述基因簇是指一组有相同来源的基因集合，所述小基因簇是指基因数量小于预设值的基因集合，所述大基因簇是指基因数量大于所述预设值的基因集合；所述方法包括：根据每个所述基因序列或小基因簇在多个样品中的丰度谱，以及每个所述大基因簇在所述多个样品中的丰度谱，通过多元线性回归，计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性；找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。2.根据权利要求1所述的基因聚类方法，其特征在于，所述方法中的多元线性回归依据如下方程式进行：其中，Eij表不基因序列或小基因族j在样品i中的相对丰度，aik表不大基因族k在样品i中的相对丰度，ekj表不基因序列或小基因族j与大基因族k的相关性。3.根据权利要求2所述的基因聚类方法，其特征在于，所述方法还包括使用系数收缩技术计算出所述相关性ekj。4.根据权利要求3所述的基因聚类方法，其特征在于，所述小基因簇是相似丰度谱基因簇，所述大基因簇是宏基因组物种基因组，所述系数收缩技术是LASSO收缩方法，所述相关性的设定值为0.1。5.—种基因聚类装置，其特征在于，所述装置用于将多个基因序列或小基因簇聚类到多个大基因簇中，其中所述基因簇是指一组有相同来源的基因集合，所述小基因簇是指基因数量小于预设值的基因集合，所述大基因簇是指基因数量大于所述预设值的基因集合；所述装置包括：相关性计算单元，用于根据每个所述基因序列或小基因簇在多个样品中的丰度谱，以及每个所述大基因簇在所述多个样品中的丰度谱，通过多元线性回归，计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性；基因簇合并单元，用于找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇。6.—种宏基因组组装方法，其特征在于，所述方法用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中，其中所述基因簇是指一组有相同来源的基因集合，所述小基因簇是指基因数量小于预设值的基因集合，所述大基因簇是指基因数量大于所述预设值的基因集合;所述方法包括：根据每个所述基因序列或小基因簇在多个样品中的丰度谱，以及每个所述大基因簇在所述多个样品中的丰度谱，通过多元线性回归，计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性；找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇；将测序读长序列比对至所述新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。7.根据权利要求6所述的宏基因组组装方法，其特征在于，所述方法中的多元线性回归依据如下方程式进行：其中，Eij表不基因序列或小基因族j在样品i中的相对丰度，aik表不大基因族k在样品i中的相对丰度，ekj表不基因序列或小基因族j与大基因族k的相关性。8.根据权利要求7所述的宏基因组组装方法，其特征在于，所述方法还包括使用系数收缩技术计算出所述相关性ekj。9.根据权利要求8所述的宏基因组组装方法，其特征在于，所述小基因簇是相似丰度谱基因簇，所述大基因簇是宏基因组物种基因组，所述系数收缩技术是LASSO收缩方法，所述相关性的设定值为0.1。10.—种宏基因组组装装置，其特征在于，所述装置用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中，其中所述基因簇是指一组有相同来源的基因集合，所述小基因簇是指基因数量小于预设值的基因集合，所述大基因簇是指基因数量大于所述预设值的基因集合;所述装置包括：相关性计算单元，用于根据每个所述基因序列或小基因簇在多个样品中的丰度谱，以及每个所述大基因簇在所述多个样品中的丰度谱，通过多元线性回归，计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性；基因簇合并单元，用于找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇，并将所找到的基因序列或小基因簇合并至相关联的大基因簇中，组合成新的大基因簇；基因组组装单元，用于将测序读长序列比对至所述新的大基因簇，获取单个基因簇特有的测序读长序列，进行单独组装，获得单个基因组草图。

百度查询：深圳华大基因股份有限公司基因聚类方法和基于该方法的宏基因组组装方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

下一篇：一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

相关技术

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种高效散热电源_广州市力为电子有限公司_202322175013.X

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

宏相关技术

基于位置服务的空间可视化宏站规范方法及系统_浪潮通信信息系统有限公司_202410038937.1

一种宏微双驱动精密定位平台及其控制方法_安徽理工大学_201811236256.7

一种用于酒醅微生物宏蛋白组学检测的蛋白提取方法_四川省农业科学院水稻高粱研究所_202210087732.3

一种空间宏微机械臂构型优化方法_北京邮电大学_202410129611.X

一种动态计算宏块相对索引位置的视频编码方法及系统_鹏钛存储技术(南京)有限公司_202410116687.9

基于常量宏定义的宏文本展开方法、电子设备和介质_北京云枢创新软件技术有限公司_202311066604.1

一种基于力反馈遥操作的宏微机加工系统及方法_青岛森思宝软件有限公司_202311627410.4

一种宏微空间机械臂的任务规划方法_北京邮电大学_202410123887.7

一种宏微运动控制装置及控制方法_苏州泛普科技股份有限公司_201610403436.4

一种用于大型表面涂装的索并联宏微喷涂机器人_清华大学_202311833127.7

基因组相关技术

光学透镜组_浙江舜宇光学有限公司_201811424906.0

摄像透镜组_浙江舜宇光学有限公司_201910892961.0

功能开关组_浙江亚伯兰电器有限公司_202322499094.9

电池组盘装置_惠州金源精密自动化设备有限公司_202322685295.8

光学成像镜头组_浙江舜宇光学有限公司_201910661727.7

光学成像镜头组_浙江舜宇光学有限公司_201910160033.5

一种抗性基因及其应用_中国科学院青岛生物能源与过程研究所_202310609682.5

一种施工安全探照灯组_青海和润水利水电工程有限公司_202322747761.0

成像镜头组和成像装置_浙江舜宇光学有限公司_201910843752.7

一种便于拆装的电池组_天津顺源弗斯特机电技术有限公司_202322342216.3

龙图腾网&IPTOP

【发明授权】基因聚类方法和基于该方法的宏基因组组装方法和装置_深圳华大基因股份有限公司_201611090611.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务