买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】确定待测样本类型的方法及系统_深圳华大生命科学研究院_201880094581.6 

申请/专利权人:深圳华大生命科学研究院

申请日:2018-06-11

公开(公告)日:2024-04-09

公开(公告)号:CN112739828B

主分类号:C12Q1/6827

分类号:C12Q1/6827;G16B30/10;G16B20/50;G16B40/00;G16B50/00;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.05.21#实质审查的生效;2021.04.30#公开

摘要:本发明提出了一种针对候选归类区域确定有效错配类型的方法。所述候选归类区域用于区分多种样本类型,该方法包括:1针对已知样本类型的多个样本,分别构建所述多个样本各自相应的多个第一错配集合,所述错配集合分别由至少一个错配信息构成;2针对所述多个样本的全部所述多个第一错配集合中的每一个所述错配信息,分别确定各所述错配信息的区分度;3基于所述各所述错配信息的区分度,确定所述有效错配类型。

主权项:1.一种针对候选归类区域确定有效错配类型的方法,其特征在于,所述候选归类区域用于区分多种样本类型,所述方法包括:1针对已知样本类型的多个样本,分别构建所述多个样本各自相应的多个第一错配集合,所述错配集合分别由至少一个错配信息构成;2针对所述多个样本的全部所述多个第一错配集合中的每一个所述错配信息,分别确定各所述错配信息的区分度;3基于所述各所述错配信息的区分度,确定所述有效错配类型;其中,在步骤1中,所述第一错配集合是通过将测序读段与所述候选归类区域的参考序列进行比对而构建的,其中,所述测序读段来自于所述多个样本的所述候选归类区域;在步骤2中,针对预定样本的所述第一错配集合中的预定错配信息,所述区分度是通过下列步骤确定的:2-1计算所述预定错配信息与除所述预定样本外的其他样本的所述第一错配集合所包含的每一个所述错配信息的相似度;2-2基于步骤2-1中所得到的所述相似度,针对除所述预定样本外的所述其他样本的每一个,分别选择针对该样本的代表错配信息,基于下列步骤确定第一错配信息和第二错配信息之间的相似度:2-2-1基于所述第一错配信息的碱基序列SA和所述第二错配信息的碱基序列SB,构建矩阵MAT,其中,所述矩阵MAT的行数为所述碱基序列SA的长度LA,所述矩阵MAT的列数为所述碱基序列SB的长度LB,并且按照下列规则对所述矩阵MAT的表格进行元素值填充:当所述碱基序列SA的第i位碱基与所述碱基序列SB的第j位碱基相同时,将i行j列的元素值定为1,当所述碱基序列SA的第i位碱基与所述碱基序列SB的第j位碱基不同时,将i行j列的元素值定为0,其中,i为不超过LA的整数,j为不超过LB的整数;2-2-2确定初始化相似度为0;2-2-3在所述矩阵MAT中,寻找至少一个正方形子矩阵MATL,所述正方形子矩阵MATL的对角线上的元素值均为1,选择所述至少一个正方形子矩阵MATL中的最大正方形子矩阵MATL,并确定所述最大正方形子矩阵所涵盖的行[x,x+Lmax]和列[y,y+Lmax]中x、y和Lmax的数值;2-2-4在所述初始化相似度的基础上增加基于所述Lmax、LA和LB确定的增量,步骤2-2-4中所述的增量是由公式Lmax*LmaxLA*LB确定的2-2-5将所述矩阵MAT中第[x,x+Lmax行和第[y,y+Lmax列的元素值均修改为0,其中,第[x,x+Lmax行和第[y,y+Lmax列均不包含右端值;2-2-6返回至步骤2-2-3,直至所述矩阵MAT中的元素值均为0,并将最终得到的相似度数值作为第一错配信息和第二错配信息之间的相似度;2-3针对所述预定错配信息,基于所述多个样本的已知样本类型,构建各所述已知样本类型各自对应的多个第二错配集合,所述第二错配集合分别由所述代表错配信息的至少之一构成;2-4计算所述多个第二错配集合之间的区分度,以便获得所述预定错配信息的区分度,所述多种样本类型包括第一样本类型和第二样本类型,所述多个第二错配集合包括第一样本类型第二错配集合和第二样本类型第二错配集合,通过下列步骤确定所述预定错配信息的区分度:2-4-1将所述第一样本类型第二错配集合和第二样本类型第二错配集合合并,以便获得第三错配集合;2-4-2基于所述相似度,对所述第三错配集合中所包含的所述代表错配信息进行排序,以便获得经过排序的所述第三错配集合,按照所述相似度数值的大小,对所述第三错配集合中所包含的所述代表错配信息进行排序或者按照所述相似度数值的大小,对所述第三错配集合中所包含的所述代表错配信息由小到大或者由大到小进行排序;2-4-3确定所述经过排序的所述第三错配集合中所包含的每个所述代表错配信息的错配信息区分度,并将所述错配信息区分度的最大值作为所述预定错配信息的区分度,针对预定代表错配信息,所述预定代表错配信息的错配信息区分度是通过下列公式确定的: 其中,QA表示所述第一样本类型第二错配集合中所述代表错配信息的总数,QB表示所述第二样本类型第二错配集合中所述代表错配信息的总数,NA表示在所述经过排序的所述第三错配集合中,序号不超过所述预定代表错配信息的位置上,来自于所述第一样本类型第二错配集合的所述代表错配信息的数目,NB表示在所述经过排序的所述第三错配集合中,序号不超过所述预定代表错配信息的位置上,来自于所述第二样本类型第二错配集合的所述代表错配信息的数目;在步骤3中,对所述各所述错配信息的所述区分度,选择具有最大值区分度的错配类型作为所述有效错配类型。

全文数据:

权利要求:

百度查询: 深圳华大生命科学研究院 确定待测样本类型的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。