买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】使用基因组描述符紧凑表示生物信息学数据的方法和设备_耶诺姆希斯股份公司_201880012026.4 

申请/专利权人:耶诺姆希斯股份公司

申请日:2018-02-14

公开(公告)日:2024-03-15

公开(公告)号:CN110663022B

主分类号:G06F7/00

分类号:G06F7/00

优先权:["20170214 US PCT/US2017/017842","20170711 US PCT/US2017/041591"]

专利状态码:有效-授权

法律状态:2024.03.15#授权;2020.02.04#实质审查的生效;2020.01.07#公开

摘要:用于压缩由基因组测序机器所产生的基因组序列数据的方法和设备。通过将序列读段相对于预先存在或构建的参考序列进行比对来编码序列读段,编码处理包括将读段分类为数据类别,然后根据多个描述符块对每个类别进行编码。特定的源模型和熵编码器用于划分数据的每个数据类别,以及每个相关联的描述符块。

主权项:1.一种用于编码基因组序列数据的计算机实施的方法,其特征在于,所述基因组序列数据包括核苷酸序列的读段,所述方法包括以下步骤:将所述读段与一个或多个第一参考序列进行比对,从而创建比对的读段,根据具有所述一个或多个第一参考序列的指定匹配规则将所述比对的读段分类成不同的类别,从而创建比对的读段的类别,所述分类包括:当相对于用于映射的所述参考序列在映射的读段中不存在错配时,将所述参考序列中没有任何错配的基因组读段识别为第一类别,P类;当仅在测序机器不能调用任何“碱基”的位置发现错配,并且每个读段中的所述错配的数量不超过给定阈值时,将基因组读段识别为第二类别,N类;当在所述测序机器不能调用任何“碱基”,被称为“n型”错配,和或调用与所述参考序列不同的“碱基”,被称为“s型”错配,的位置发现错配,并且所述错配的数量不超过所述“n型”、“s型”错配数量的给定阈值和从给定函数,fn,s获得的阈值时,将基因组读段识别为第三类别,M类;当基因组读段可能具有相同类型的所述第三类别,M类错配,以及另外以下类型的至少一个错配:插入,i型、删除,d型、软剪切或硬剪切,c型,并且其中,所述每个类型的错配的数量不超过相对应的给定阈值和由给定函数,wn,s,i,d,c提供的阈值时,将基因组读段识别为第四类别,I类;将所述分类的比对的读段编码为用于相应类别且在相应类别内同质的多个描述符块,其中,将所述分类的比对的读段编码为多个描述符块包括,根据所述比对的读段的类别选择所述描述符,用报头信息来构建所述描述符块,从而创建连续的访问单元;其中,使用用于关于映射位置的信息的描述符块、用于关于链特异性,即,所述读段序列来自的DNA链的信息的描述符块以及用于关于序列读段的特征的信息的“flags”来构建所述第一类别,P类访问单元;并且其中,在所述P类访问单元中,使用相应描述符块来编码配对端读段的配对信息;其中,使用所述第一类别,P类访问单元的相同描述符块加上用于关于未知碱基的所述位置的所述信息的描述符块来构建所述第二类别,N类访问单元;其中,使用所述第一类别,P类访问单元的相同描述符块加上用于关于替换的位置和类型的信息的描述符块来构建所述第三类别,M类访问单元;其中,使用所述第一类别,P类访问单元的相同描述符块加上用于关于替换、插入、删除和剪切的碱基的位置和类型的信息的描述符块来构建所述第四类别,I类访问单元;所述方法还包括:将在所述第一至所述第四类别,P、N、M、I类中没有找到任何分类的基因组读段识别为第五类别,U类,使用至少一些所述第五类别的所述读段来构建一组第二参考序列,将所述第五类别的所述读段与所述一组第二参考序列进行比对,基于相对于所述第二参考序列的指定的匹配精确性约束,将所述第五类别的所述读段编码为相应描述符,用报头信息来构建所述相应描述符,从而创建第五类别的访问单元。

全文数据:

权利要求:

百度查询: 耶诺姆希斯股份公司 使用基因组描述符紧凑表示生物信息学数据的方法和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。