买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于k-mer的序列联配方法_浙江天科高新技术发展有限公司_202210050014.9 

申请/专利权人:浙江天科高新技术发展有限公司

申请日:2022-01-17

公开(公告)日:2024-03-22

公开(公告)号:CN114520024B

主分类号:G16B30/10

分类号:G16B30/10

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.06.07#实质审查的生效;2022.05.20#公开

摘要:本发明涉及一种基于k‑mer的序列联配方法。本发明通过对seq1序列和seq2序列进行k‑mer分析,获得两条序列的k‑mer集合,筛选出一致性片段。然后利用所述的一致性片段进行序列划分,进而对不同差异性片段序列进行全局联配。最后把联配的结果从5’端到3’端合并得到完整序列的联配结果。本发明利用k‑mer方法可以大大缩短序列联配时间以及联配过程中占用的计算内存。本发明建立了全新的序列联配的核心思想,并为序列联配提供了一个新的高效的技术手段。

主权项:1.一种基于k-mer的序列联配方法,其特征在于,包括以下步骤:步骤一,分别对输入的seq1序列和seq2序列根据第一预定长度进行k-mer分析,获得k-mer序列集合,所述k-mer第一预定长度大于联配所允许的错配数;步骤二,比较步骤一所述的k-mer序列集合,获得两条序列公共的k-mer,以此来寻找一致性片段;如果同一k-mer在同一条序列中有多个,则取第一个位置作为一致性片段;如果两条序列共有多个连续k-mer,则将多个连续k-mer合并以作为一致性片段;步骤三,利用步骤二所述的一致性片段将序列划分成若干段差异性片段,进行差异性片段序列全局联配获得最优联配结果;如果差异性片段序列长度小于第一预定长度,则向前或向后截取一个第一预定长度的碱基并入一起联配分析;步骤四,根据步骤三所述的最优联配结果,从5’端到3’端输出最终完整序列联配结果;所述差异性片段序列全局联配包括全局比对模块和回溯模块;所述全局比对模块实行步骤如下:1)初始化阶段:获取待联配的subseq1序列和subseq2序列各位置上的单元信息;构建m+1×n+1的得分矩阵M,其中,m为subseq1的单元数目,n为subseq2的单元数目,subseq1序列沿顶部展开,subseq2序列沿左侧展开,得分矩阵初始化值全填充为0;2)计算单元得分值:用于计算得分矩阵中的单元值通过以下三个途径到达每个单元:a.来自上面的单元,代表将左侧的字符与空格比对;b.来自左侧的单元,代表将上面的字符与空格比对;c.来自左上侧的单元,代表与左侧和上面的字符比对,可能匹配也可能不匹配;即当矩阵Mi-1,j-1、Mi,j-1和Mi-1,j值计算结束后,Mi,j值才能计算;Mi,j值来自于以下4个中的最大值:a.上面单元的值-空格罚分预定值;b.左侧单元的值-空格罚分预定值;c.左上侧单元值+相应单元打分;d.0;其中,所述单元值计算公式如下: ;其中,Mi-1,j-1表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j-1个单元的比对得分;Mi,j-1表示所述subseq1序列中第i个单元与所述subseq2序列中第j-1个单元的比对得分;Mi-1,j表示所述subseq1序列中第i-1个单元与所述subseq2序列中第j个单元的比对得分;g表示空格罚分预定值;EQi,Sj是基于所述subseq1序列中第i个单元Qi与所述subseq2序列中第j个单元Sj确定的数值,该数值根据自定义打分矩阵获得;其中,当Qi与Sj相同时,EQi,Sj为第一预定打分值,当Qi与Sj不相同时,EQi,Sj为第二预定打分值,所述第二预定打分值小于所述第一预定打分值;所述回溯模块是根据下列步骤确定的:确定回溯起始位置模块,所述确定回溯起始位置模块用于确定矩阵Mm+1×n+1中最右侧或最下方得分最大值所对应的回溯起始位置;如果所述回溯起始位置在最右侧而不是最右下方,subseq1序列前端引入GAP"-",GAP个数由subseq2序列起始位置决定;如果所述回溯起始位置在最下方而不是最右下方,subseq2序列前端引入GAP"-",GAP个数由subseq1序列起始位置决定;确定下一回溯位置模块,所述确定下一回溯位置模块用于确定基于所述回溯位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;如果所述最大值出现在下一回溯位置上方,则subseq1序列引入一个GAP"-",subseq2序列取下一回溯位置对应的碱基;如果所述最大值出现在左侧,则subseq2序列引入一个GAP"-",subseq1序列取下一回溯位置对应的碱基;如果所述最大值出现在左上方,则不引入GAP,subseq1和subseq2均取下一回溯位置对应的碱基;重复步骤b,直到步骤b中所确定的所述下一回溯位置的行号和列号的至少之一为0;比对结果输出模块,所述比对结果输出模块用于基于步骤a-c中所确定的回溯路线,确定所述subseq1序列与所述subseq2序列的比对结果。

全文数据:

权利要求:

百度查询: 浙江天科高新技术发展有限公司 一种基于k-mer的序列联配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。