申请/专利权人:上海智峪生物科技有限公司
申请日:2021-12-29
公开(公告)日:2024-03-22
公开(公告)号:CN115910197B
主分类号:G16B20/00
分类号:G16B20/00;G06F18/22;G06F18/23
优先权:
专利状态码:有效-授权
法律状态:2024.03.22#授权;2023.04.21#实质审查的生效;2023.04.04#公开
摘要:本申请提供了一种基因序列处理方法、装置、存储介质及电子设备。其中基因序列处理方法首先获取第一序列集,第一序列集中包含多个待处理序列;然后通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;进而通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。本申请实施例根据包含的各类碱基的数量对多个待处理序列进行了一重过滤,根据各待处理序列生成的子序列对一重过滤后的多个待处理序列进行了二重过滤,从而滤除了大量冗余的基因序列,能够提高基因序列的处理效率。
主权项:1.一种基因序列处理方法,其特征在于,包括:获取第一序列集,所述第一序列集中包含多个待处理序列;通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集,所述第二序列集中包括参考序列和多个非参考序列;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;通过对比所述第二序列集中各待处理序列的子序列,对所述第二序列集进行过滤,得到目标序列集,包括:按照预设规则对所述参考序列的子序列进行排序;对于所述第二序列集中的每一个所述非参考序列,按照所述预设规则对所述非参考序列的子序列进行排序;根据所述非参考序列与所述参考序列的子序列的排序结果,确定所述非参考序列与所述参考序列的子序列相似度;根据各非参考序列与所述参考序列的子序列相似度对所述第二序列集进行过滤,得到目标序列集;所述按照预设规则对待处理序列的子序列进行排序具体可以包括:获取各预设碱基对应的预设编码;根据各预设碱基对应的预设编码,对待处理序列的每个子序列进行编码,得到每个子序列的编码数值;根据每个子序列的编码数值对待处理序列的子序列进行排序;其中,将参考序列和非参考序列的子序列按照统一标准进行排序后,根据二者的排序结果,可以确定二者中的相似子序列对;确定非参考序列的碱基长度;将相似子序列对的数量占碱基长度的比例确定为非参考序列与参考序列的子序列相似度,其中,相似子序列对除了包含的碱基相同、碱基的排列顺序相同,还需满足距离约束条件。
全文数据:
权利要求:
百度查询: 上海智峪生物科技有限公司 基因序列处理方法、装置、存储介质及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。