买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种病原微生物参考知识库的最大多样性聚类构建方法_微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司_202110331409.1 

申请/专利权人:微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司

申请日:2021-03-29

公开(公告)日:2021-07-16

公开(公告)号:CN112800245B

主分类号:G06F16/36(20190101)

分类号:G06F16/36(20190101);G06F16/35(20190101);G16B30/10(20190101);G16B30/20(20190101);G06N5/02(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.16#授权;2021.06.01#实质审查的生效;2021.05.14#公开

摘要:本发明涉及生物技术领域,具有涉及一种病原微生物参考知识库的最大多样性聚类构建方法。该构建采用贪心缩放算法,通过特定方法计算冗余基因组的多序列相似性,去除扩展相似度高的序列,可以保证在去除大量冗余信息的同时,最大程度保留微生物基因组的多样性。实验表明,本发明提供的病原微生物知识库的最大多样性聚类方法准确性高、检测效率高且数据冗余率低,尤其适用于大规模的病原微生物全基因组序列。

主权项:1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,包括:步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组Rx作为独立集分别构建参考知识库Qx;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Qx的构建方法包括:1将冗余基因组Rx进行索引,然后采用多进程模式进行并行排序,获得原始冗余集Rx’;2将原始冗余集Rx’中序列最长的确定为核心基因组序列S1,将剩余序列Sn分别与S1进行比对,获得每条Sn序列与S1相匹配的子序列集A;对子序列集A进行序列聚类,得到子序列集A的扩展最大精确匹配子序列集A';其中,n为原始冗余集Rx’的序列总数,n为≥2的整数;3计算S1和Sn之间的扩展相似性Sextended;计算公式为Sextended=LengthA'LengthS1,其中,LengthA'和LengthS1为序列中碱基的个数;将Sextended取值范围在0~100%之间的序列标记为冗余基因组序列,否则标记为核心基因组序列,计算获得核心基因组集C1和冗余序列集R1;4将获得的核心基因组集C1作为参考基因组,将原始冗余集Rx’中除C1和R1外的剩余序列标记为T1,将T1中的序列逐条与C1的所有序列按照步骤2~3的方法进行比对;所述比对方法具体为:C1中的每条序列对应步骤2中的S1,任意取C1中的一条序列记为S1’;T1中的每条序列对应步骤2中的Sn,任意取T1中的一条序列记为Sn’;那么,将Sn’与S1’按照步骤2进行比对,如果满足步骤3中的扩展相似性Sextended阈值,Sn’被标记为冗余序列;如果不满足步骤3中的扩展相似性Sextended阈值,则Sn’继续与C1中的其他序列进行比对,如果均不满足步骤3中的扩展相似性Sextended阈值,则Sn’被标记为核心基因组;当T1中的所有序列都被标记完成后,将T1中的所有核心基因组序列与C1合并得到核心基因组集C2;5将C2作为参考基因组,将原始冗余集Rx’中除了R2和C2之外的所有剩余序列标记为T2,将T2中的序列逐条与C2的序列进行比对,当T2中的所有序列都被标记完成后,将T2中的所有核心基因组序列与C2合并得到核心基因组集C3;依次类推,将每一轮比对结束后获得的核心基因组集Cm作为下一轮比对的参考基因组,m为≥1的整数;将原始冗余集Rx’中除了Rm和Cm之外的所有剩余序列标记为Tm,将Tm中的序列逐条与Cm的序列进行比对,当Tm中的所有序列都被标记完成后,将Tm中的所有核心基因组序列与Cm合并得到核心基因组集Cm+1;依次循环比对,直至原始冗余集Rx’的剩余序列为空,即所有的序列被标记为核心序列或冗余序列,循环结束;形成核心基因组集C和冗余集R,核心基因组集C即为参考知识库Qx;步骤3:按照步骤1~5分别构建得到每类病原微生物的参考知识库Q1~Qx,合并,获得病原微生物参考知识库。

全文数据:

权利要求:

百度查询: 微岩医学科技(北京)有限公司;杭州萧山微岩医学检验实验室有限公司 一种病原微生物参考知识库的最大多样性聚类构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。