买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】生物序列指纹_达索系统美国公司_201811255595.X 

申请/专利权人:达索系统美国公司

申请日:2018-10-26

公开(公告)日:2024-04-12

公开(公告)号:CN109727645B

主分类号:G16B50/00

分类号:G16B50/00;G16B25/10

优先权:["20171027 US 15/796,679"]

专利状态码:有效-授权

法律状态:2024.04.12#授权;2020.11.03#实质审查的生效;2019.05.07#公开

摘要:根据本发明的一个实施例,生物序列的特征被表示在包括位集合并且还可以包括针对所述特征的计数、字符串或连续值的指纹中。所述指纹能够与机器学习和统计方法一起使用。这对于但不限于药物发现过程而言是特别有利的。所述方法准许关于生物序列执行结构活性关系SAR和定量结构活性关系QSAR研究。

主权项:1.一种用于形成表示生物序列的指纹数据结构的计算机实现的方法,所述计算机实现的方法包括:针对要在所述指纹数据结构中使用的多个分量特征中的每个分量特征,查询表示所述生物序列的生物序列数据结构以确定所述生物序列数据结构中的所述分量特征的值,所述值指示:所述分量特征在所述生物序列中存在或不存在,或者所述分量特征的实际值;并且将分量特征条目添加到所述指纹数据结构,所述分量特征条目对应于针对所述分量特征查询所述生物序列数据结构的结果,所述分量特征条目具有所述分量特征的已确定值;添加到所述指纹数据结构的所述分量特征条目的至少一部分以位集合的特征位来指示,对应于相应分量特征的每个特征位具有用来指示相应分量特征在所述生物序列中存在或不存在的值,其中,所述分量特征包括以下中的至少一个:所述生物序列的属性,所述生物序列的衍生物,所述生物序列的注释,以及特征之间的次序和或距离关系,其中,至少一个分量特征为:i在滑动窗口在所述生物序列数据结构中的多次移动中出现的独特序列字符串,所述滑动窗口包括基本位置单元的给定距离的单元内的相邻单元;或者ii所述生物序列数据结构的给定整数长度的连续单元的独特序列字符串,其中可选地所述独特序列字符串包括通过合并所述生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串而创建的所述生物序列数据结构的较大给定整数长度的连续单元的独特序列字符串;或者iii以下各项中的至少一项:所述生物序列数据结构中的至少一个模式,以及所述生物序列数据结构的至少一个位置中的至少一个模式。

全文数据:生物序列指纹背景技术先前,术语“DNA分型”或“DNA指纹识别”已经被用于描述使用在包括刑事侦查、亲子鉴定、污染检测和测试食品以用于准确标记的各种应用中的方法。指纹识别可以通过将DNA排序并且使用DNA的序列作为指纹或者通过以使得DNA“分型”被生成的方式处理DNA来完成。该指纹然后与参考DNA样本的指纹相比较。然后,比较将提供两个DNA样本来自相同源的某个概率。这是“识别”技术并且通常地更指代实验室方法而不是比较方法。除DNA指纹识别之外的步骤是全DNA序列比较。此处,两个或更多个序列彼此进行比较并且生成表示两个序列多么相似的相似性得分。这些中的最著名的是基本本地对准搜索工具或者BLAST。存在被设计用于不同的应用或者实现稍微不同的算法的BLAST的许多变型。移动到直接序列比较之外,存在被用于识别DNA和蛋白质序列中的图案和模式的方法和数据库。匹配特定已知图案允许个人进行分类,并且取决于图案的质量,将功能性分配给特定序列。这些图案和模式的汇集可以被认为是“蛋白质指纹”,其允许将序列分类为已知类别的蛋白质。其还可以被用于识别已知的基于序列的结构特征,诸如其中蛋白质结合到配位体的口袋。在化学分子分析的领域中,存在现有的指纹识别技术,但是其不适用于生物序列,并且用于生物指纹识别的现有技术高度地取决于直接地比较序列或者序列的编译模式分型。这些方法可以是计算代价高的。BLAST例如在Onm时间内运行,尽管现代版本具有使其非常高效的许多改进。这些改进包含对序列的预处理并且创建索引,其在On时间内运行。蛋白质指纹受限于关于蛋白质我们知道什么;其不允许可能重要的未知特征的发现。这对于分类和比较蛋白质是有用的,但是对于确定可以解释行为的差异的差异不是有用的。发明内容根据本发明的一个实施例,生物序列的特征被表示在包括位集合并且还可以包括针对所述特征的计数、字符串或连续值的指纹中。所述指纹能够与机器学习和统计方法一起使用。这对于但不限于药物发现过程而言是特别有利的。所述方法准许关于生物序列执行结构活性关系SAR和定量结构活性关系QSAR研究。根据本发明的一个实施例,提供了一种用于形成表示生物序列的指纹数据结构的计算机实现的方法。所述计算机实现的方法包括针对要使用在所述指纹数据结构中的多个分量特征中的每个分量特征,关于表示所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询所述生物序列数据结构。分量特征条目被添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构。所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的至少一部分。在另外的相关实施例中,所述指纹数据结构的至少一个分量特征条目的值可以包括以下各项中的至少一项:所述生物序列数据结构中的所述特征的计数;表示所述至少一个分量特征条目的字符串;以及表示所述至少一个分量特征条目的连续数值。所述指纹数据结构的至少一个分量特征条目的值可以包括将所述生物序列作为整体来表征的值。所述指纹数据结构的至少一个分量特征可以包括从所述生物序列数据结构计算或导出的特征。从所述生物序列数据结构计算或导出的所述特征可以包括在滑动窗口在所述生物序列数据结构中的多次移动中出现的独特序列的存在或不存在,所述滑动窗口包括基本位置单元的给定距离单元内的相邻单元。从所述生物序列数据结构计算或导出的所述特征可以包括所述生物序列数据结构的给定整数长度的连续单元的独特序列字符串的存在或不存在。所述独特序列字符串可以包括通过合并所述生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串而创建的所述生物序列数据结构的较大给定整数长度的连续单元的独特序列字符串。从所述生物序列数据结构计算或导出的所述特征可以包括以下各项中的至少一项:所述生物序列数据结构中的至少一个模式的存在或不存在;以及所述生物序列数据结构的至少一个位置中的至少一个模式的存在或不存在。所述指纹数据结构的至少一个分量特征可以包括表示所述生物序列的注释的特征。所述指纹数据结构的至少一个分量特征可以包括表示所述生物序列的两个或更多个其他分量特征的次序关系或距离关系中的至少一个的特征。根据本发明的另一实施例,提供了一种计算机系统,包括:处理器;以及存储器,其具有被存储在其上的计算机代码指令,所述处理器和所述存储器以及所述计算机代码指令被配置为实施序列评价模块和分量特征编辑器模块。所述序列评价模块被配置为针对要使用在指纹数据结构中的多个分量特征的每个分量特征,关于表示所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询所述生物序列数据结构。所述分量特征编辑器模块被配置为针对每个这样的分量特征,将分量特征条目添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构。所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的所述至少一部分。在另外的相关实施例中,所述序列评价模块还可以被配置为查询所述生物序列数据结构来确定包括将所述生物序列作为整体来表征的值的所述指纹数据结构的至少一个分量特征条目的值。所述序列评价模块还可以被配置为查询所述生物序列数据结构来确定包括从所述生物序列数据结构计算或导出的特征的至少一个分量特征。所述序列评价模块还可以被配置为至少基于在滑动窗口在所述生物序列数据结构中的多次移动中出现的独特序列的存在或不存在来确定从所述生物序列数据结构计算或导出的所述特征,所述滑动窗口包括基本位置单元的给定距离的单元内的相邻单元。所述序列评价模块还可以被配置为至少基于所述生物序列数据结构的给定整数长度的连续单元的独特序列字符串的存在或不存在来确定从所述生物序列数据结构计算或导出的所述特征。所述序列评价模块还可以被配置为通过合并所述生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串来创建作为所述生物序列数据结构的较大整数长度的连续单元的独特序列的所述独特序列字符串而确定所述独特序列字符串。所述序列评价模块还可以被配置为基于以下各项中的至少一项来确定从所述生物序列数据结构计算或导出的所述特征:所述生物序列数据结构中的至少一个模式的存在或不存在;以及所述生物序列数据结构的至少一个位置中的至少一个模式的存在或不存在。所述序列评价模块还可以被配置为查询所述生物序列数据结构来确定包括表示所述生物序列的注释的特征的至少一个分量特征。所述序列评价模块还可以被配置为查询所述生物序列数据结构来确定表示所述生物序列的两个或更多个其他分量特征之间的次序关系或距离关系中的至少一个的至少一个分量特征。在根据本发明的另一实施例中,提供了一种非瞬态计算机可读介质,其被配置为存储用于形成表示生物序列的指纹数据结构的指令,所述指令当由处理器加载和运行时,使所述处理器通过以下各项来形成表示生物序列的指纹数据结构:针对要使用在所述指纹数据结构中的多个分量特征的每个分量特征,关于表示所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询所述生物序列数据结构;并且将分量特征条目添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构。所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的所述至少一部分。附图说明前述内容从如在附图中所图示的范例实施例的以下更具体描述将变得明显,在附图中类似的附图标记贯穿不同的视图指代相同部分。附图不必按比例绘制,相反重点放在说明实施例上。图1是根据本发明的实施例的生物序列位集合指纹数据结构系统的示意性框图。图2是根据本发明的实施例的与生物序列数据结构交互的序列评价模块的示意性框图。图3是根据本发明的实施例的与生物序列数据结构交互的次要特征模块的示意性框图。图4是根据本发明的实施例的用于形成表示生物序列的指纹数据结构的计算机实现的方法的示意性框图。图5是根据本发明的实施例的创建针对生物序列的指纹数据结构的方法的示意性流程图。图6是根据本发明的实施例的使用位初始化来创建针对生物序列的位集合指纹数据结构的方法的示意性流程图。图7是根据本发明的实施例的示出序列评价的滑动窗口技术的实施方式的示意图。图8是根据本发明的实施例的示出对不同长度的独特序列字符串的确定的实施方式的示意图。图9是根据本发明的实施例的示出序列评价的扩展连接性技术的实施方式的示意图。图10是根据本发明的实施例的示出与相似性评价模块、分析模块、机器学习模块、搜索模块和或宏基因组模块交互的生物序列位集合指纹数据结构的示意性框图。图11图示了本发明的实施例可以被实施于其中的计算机网络或类似数字处理环境。图12是图11的计算机系统中的计算机例如,客户端处理器设备或服务器计算机的范例内部结构的示图。具体实施方式范例实施例的描述如下。根据本发明的一个实施例,生物序列的特征被表示在包括位集合并且还可以包括针对所述特征的计数、字符串或连续值的指纹中。所述指纹能够与机器学习和统计方法一起使用。这对于但不限于药物发现过程而言是特别有利的。所述方法准许关于生物序列执行结构活性关系SAR和定量结构活性关系QSAR研究。由于指纹的结构不依赖于序列的类型例如,DNA、RNA或蛋白质序列,因而类似的机器学习和统计方法应当能够被使用而不管序列的类型如何,但是特征集合可能在序列类型之间不是可比较的。图1是根据本发明的实施例的生物序列位集合指纹数据结构系统100的示意性框图。系统100包括处理器102和存储器104,其存储计算机代码指令。处理器102和存储器104以及计算机代码指令被配置为实施序列评价模块106和分量特征编辑器模块108。序列评价模块106被配置为关于表示生物序列的生物序列数据结构112中的分量特征的存在或值查询116生物序列数据结构112。这针对要使用在指纹数据结构110中的每个分量特征执行。分量特征编辑器模块108被配置为将分量特征条目添加114到对应于针对分量特征中的每个查询生物序列数据结构112的结果的指纹数据结构110。指纹数据结构110的分量特征条目中的至少一些包括位集合118的特征位。指纹数据结构110的位集合118的每个位对应于生物序列数据结构112的独特分量特征。位集合118的位中的值1意指该特征存在于生物序列数据结构112中,而值0意指该特征不存在于生物序列数据结构112中。根据本发明的实施例,生物序列指纹数据结构110是表示生物序列数据结构112的分量特征的值的汇集。值可以指示序列中的特征的存在或不存在,其可以被指示在位集合118中。指纹数据结构110的值还可以指示特征的实际值,其可以是连续数值或特征在序列中出现的次数的计数。鉴于位集合118示出了特征是存在还是不存在于生物序列数据结构112中,计数告知特征在生物序列数据结构112中出现多少次,是零次还是大于零次的数目。在指纹数据结构110中,分量特征可以例如是:序列的属性例如,长度;序列的衍生物例如,n-mer;序列的注释例如,单核苷酸多态性或SNP;以及特征之间的次序关系和距离关系例如,上游启动子区域。在一个范例中,分量特征可以例如是生物序列数据结构中的模式或图案的存在或不存在,或者在生物序列数据结构中的特定位置处的这样的模式或图案的存在或不存在。如本文使用的,应当理解,模式或图案可以被认为作为生物序列数据结构的分量特征而存在,甚至其中模式或图案包含歧义、否定或者通配符而不是与模式或图案的确切匹配。在另一范例中,对于蛋白质序列而言,分量特征可以包括反映蛋白质肽交联的特征,包括指示在蛋白质序列中的给定位置处的蛋白质肽交联的存在或不存在的分量特征或者与蛋白质肽交联的其他分量特征。分量特征可以被表示为位集合118中的位例如,这样的特征的存在或不存在或者连续值、计数或者字符串、前述内容中的超过一个的组合。根据本发明的实施例,指纹数据结构110封装序列的已知的和选择的特征。两个相同序列产生相同指纹,但是两个不同的序列可以产生或者可以不产生相同的指纹,这取决于所选择的特征。可以使用不同类型的指纹数据结构110,这取决于分量特征如何被选择,但是指纹数据结构110的形式可以包括位集合118而不管哪些分量特征被选择。图2是根据本发明的实施例的与生物序列数据结构212交互的序列评价模块206的示意性框图。序列评价模块206被配置为查询生物序列数据结构212来确定指纹数据结构的至少一个分量特征条目的值。图2的实施例的序列评价模块206可以包括主要特征模块220,其被配置为关于主要特征查询生物序列数据结构212,主要特征是其值222将生物序列作为整体来表征的特征。主要特征可以包括诸如序列长度、序列的鸟嘌呤胞嘧啶含量GC含量、密码子选择偏好或者在蛋白质序列的情况下序列的残余含量的特征。将序列作为整体来表征222的这样的值222可以独立地被存储在生物数据结构212中,并且在一些情况下,可以本身根据生物数据结构212内的序列数据229来初始地确定以便例如,通过确定序列的长度将生物序列作为整体来表征。图2的实施例的序列评价模块206还可以包括次要特征模块224,其被配置为关于次要特征查询生物序列数据结构212,次要特征是从生物序列数据结构212计算或导出226的特征。这样的特征下面更详细地进行讨论,并且可以例如包括从生物序列数据结构212计算或导出的不仅仅将生物序列作为整体来表征的特征。例如,次要特征可以包括:在滑动窗口在生物序列数据结构中的多次移动中出现的独特序列的存在或不存在,滑动窗口包括基本位置单元的给定距离的单元内的相邻单元;生物序列数据结构的给定整数长度的连续单元的独特序列字符串的存在或不存在;通过合并生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串来创建较大整数长度的连续单元的独特序列而创建的独特序列字符串;生物序列数据结构的至少一个位置中的至少一个模式的存在或不存在;以及生物序列数据结构中的至少一个序列字符串的存在或不存在。图2的实施例的序列评价模块206还可以包括第三特征模块228,其被配置为关于第三特征查询生物序列数据结构212,第三特征是表示生物序列230的注释的特征。这样的第三特征可以例如包括:识别序列中的单核苷酸多态性SNP的注释;识别指示某个功能性诸如转录因子结合的序列模式的存在的注释;或者来自针对蛋白质指纹库查询序列的结果,蛋白质指纹库例如Pfam或者InterPro英国剑桥郡茵格斯顿的欧洲分子生物学实验室-欧洲生物信息学研究所的两个数据库。在这些情况下,指纹数据结构110参见图1可以例如指示生物序列数据结构212是具有特征还是不具有特征。这样的注释230可以独立地被存储在生物数据结构212中,并且,在一些情况下,可以本身根据生物数据结构212内的序列数据229来初始地确定例如,通过针对蛋白质指纹库初始地查询序列。图2的实施例的序列评价模块206还可以包括第四特征模块232,其被配置为关于第四特征查询生物序列数据结构212,第四特征是表示生物序列的两个或更多个其他分量特征之间的次序关系或距离关系234中的至少一个的特征。针对此的范例将是指定一个基因特征被定位在远离另一基因特征的54碱基对bp处。另一范例可以是基因B被定位在基因A与基因C之间,或者基因Z跟随序列中的基因Y,但是没有指定它们之间的距离。当距离被指定时,还可以允许范围。这样的第四特征可以被存储在位集合118中这样的次序或距离关系234的存在或不存在或作为计数、连续值或字符串。图3是根据本发明的实施例的与生物序列数据结构312交互的次要特征模块324的示意性框图。图3的实施例的次要特征模块324可以例如包括滑动窗口模块336,其被配置为至少基于在滑动窗口在生物序列数据结构312中的多次移动中出现的独特序列字符串的存在或不存在来确定从生物序列数据结构312计算或导出的特征,滑动窗口包括基本位置单元的给定距离的单元内的相邻单元。滑动窗口模块336可以使用序列数据329来执行这一点,并且下面结合图7进一步图示。图3的实施例的次要特征模块324可以例如还包括独特序列模块338,其被配置为至少基于生物序列数据结构312的给定整数长度的连续单元的独特序列字符串的存在或不存在来确定从生物序列数据结构312计算或导出的特征。独特序列模块338可以使用序列数据329来执行这一点,并且下面结合图8进一步图示。在另一范例中,独特序列字符串可以由扩展连接性模块340通过合并生物序列数据结构312的较小整数长度的连续单元的相邻独特序列字符串来创建作为生物序列数据结构312的较大整数长度的连续单元的独特序列的独特序列字符串而确定。扩展连接性模块340可以使用序列数据329执行这一点,并且下面结合图9进一步图示。图3的实施例的次要特征模块324可以例如还包括模式位置模块342,其被配置为基于生物序列数据结构312的至少一个位置中的至少一个模式的存在或不存在来确定从生物序列数据结构312计算或导出的特征。次要特征模块324可以使用序列329来执行这一点。例如,次要特征模块可以确定:1.残基碱基X是否在生物序列数据结构312中的位置N处。2.残基碱基X是否不在生物序列数据结构312中的位置N处。3.残基碱基X、Y和Z或者X、Y或Z是否在生物序列数据结构312中的位置N处。4.残基碱基X、Y和Z或者X、Y或Z是否不在生物序列数据结构312中的位置N处。另外,图3的实施例的次要特征模块324可以例如还包括模式存在模块344,其被配置为基于生物序列数据结构312中的至少一个模式诸如至少一个序列字符串的存在或不存在来确定从生物序列数据结构312计算或导出的特征。此处,指纹数据结构110参见图1的分量特征是模式,并且位集合118参见图1的位可以基于特征是否与模式匹配来设定。这样的特征可以是与正则表达式模式的匹配。此处,应当理解,与模式或图案的匹配可以被认为是作为生物序列数据结构的分量特征而存在,甚至其中模式或图案包含歧义、否定或者通配符而不是与模式或图案的确切匹配。针对分量特征的指纹数据结构参见图1中的110的元数据或者限定符可以被设定为包括模式或模式标识符。在一个范例中,模式存在模块334可以使用序列数据329来确定:1.序列字符串XYZ是否在生物序列数据结构312中;2.序列字符串XYZ是否不在生物序列数据结构312中。歧义、否定或者通配符而不是与模式或图案的确切匹配还可以由模式存在模块344和模式位置模块342使用。更一般地,正则表达式模式匹配可以根据本发明的实施例来执行,包括对歧义、否定或者通配符的使用。例如,正则表达式模式匹配可以与IEEE可移植操作系统接口POSIX标准族中的任何的语法一起使用,包括基本正则表达式BRE、扩展正则表达式ERE或者简单正则表达式SRE的语法中的任何,诸如基于IEEEStd1003.1-20082016版的那些,其全部教导通过引用并入本文。可以被用于匹配生物序列数据结构312中的模式的正则表达式模式匹配的一些范例如下,非限制性地,其中,将理解到对“字符”或者“字母”的引用此处被用于指代元素,诸如生物序列数据结构312的序列数据329中的碱基或者残基的元素:.at匹配以“at”结束的任何三字符的字符串,包括“hat”、“cat”和“bat”。[hc]at匹配“hat”和“cat”。[a-z]指定匹配从“a”到“z”的任何字母的范围。这些形式可以被混合:[abcx-z]匹配“a”、“b”、“c”、“x”、“y”或“z”,[a-cx-z]也一样。[^b]at匹配由除“bat”之外的.at匹配的所有字符串。[^hc]at匹配由除“hat”和“cat”之外的.at匹配的所有字符串。^[hc]at匹配“hat”和“cat”,但是仅在字符串的开始处。[hc]at$匹配“hat”和“cat”,但是仅在字符串的结尾处。s.*匹配跟踪有零或多个字符的s,例如:“s”和“saw”和“seed”。a{3,5}仅匹配“aaa”、“aaaa”和“aaaaa”。另外,在图3的实施例中,将理解到,可以使用上文针对模式位置模块342给定的范例1到4和上文针对模式存在模块344给定的范例1和2的逻辑排列,诸如通过使用模式位置模块342和模式存在模块344两者或者包括这两个功能性的单个模块。超过一个询问的逻辑组合可以使用布尔逻辑表达式诸如AND、OR和NOT执行。例如,次要特征模块324可以确定诸如以下的特征:1.残基碱基X是否在位置N处AND残基碱基Y是否在生物序列数据结构312中的位置M处。2.残基碱基X是否NOT在生物序列数据结构312中的位置N处AND残基碱基X是否NOT在生物序列数据结构312中的位置M处。3.残基碱基X、Y和Z或者X、Y或Z是否在生物序列数据结构312中的位置N处AND残基碱基X、Y和Z或者X、Y或Z是否在生物序列数据结构312中的位置M处。4.残基碱基X、Y和Z或者X、Y或Z是否NOT在生物序列数据结构312中的位置N处AND残基碱基X、Y和Z或者X、Y或Z是否NOT在生物序列数据结构312中的位置M处。5.序列字符串XYZ是否在生物序列数据结构312中AND序列字符串ABC是否在生物序列数据结构312中。6.序列字符串XYZ是否NOT在生物序列数据结构312中AND序列字符串ABC是否NOT在生物序列数据结构312中。将理解到,这样的查询的其他排列和组合可以使用次要特征模块324执行。另外,在根据本发明的实施例中,诸如在次要特征模块324、模式位置模块342和或模式存在模块344中,一种或多种模式匹配技术可以根据MarkelS.,RajapakseV.在InSilicoTechnologyinDrugTargetIdentificationandValidationLeonD,MarkelSEditors,MarcelDekker,2006中的PatternMatching的教导来使用,其全部教导通过引用并入本文。另外,应当理解,根据本发明的实施例,分量特征可以被包括在指纹数据结构110中参见图1,其适合放入主要特征、次要特征、第三特征和第四特征的以上类别中的没有一个中,或者其在某种程度上适合放入那些类别中的超过一个中,并且可以通过使用序列评价模块106关于这样的分量特征的存在或值查询生物序列数据结构112来评价。可以包括对应于这样的分量特征的位集合、计数、字符串或连续值中的特征位。这样的特征可以例如被包括在生物序列数据结构212的针对生物序列的其他特征的额外字段264参见图2中并且通过序列评价模块206评价,和或可以本身从序列数据229导出。图4是根据本发明的实施例的用于形成表示生物序列的指纹数据结构的计算机实现的方法的示意性框图。计算机实现的方法包括405针对要使用在指纹数据结构中的多个分量特征中的每个分量特征,关于表示生物序列的生物序列数据结构中的分量特征的存在或值查询生物序列数据结构。分量特征条目被添加407到对应于针对分量特征查询生物序列数据结构的结果的指纹数据结构。指纹数据结构的分量特征条目的至少一部分包括位集合的特征位,位集合包括指纹数据结构的分量特征条目的至少一部分。图5是根据本发明的实施例的创建针对生物序列的指纹数据结构的方法的示意性流程图。给定特征集合,创建511空指纹。关于其是否包含该特征或者在一些情况下该特征的该值可以是什么查询513生物序列509。该操作的结果然后被添加515到指纹并且下一特征被评价513。为了将特征添加515到特征,其中,特征是待记录在位集合中的特征,位集合的位是关于特征是否存在的集合;然而,对于其他特征而言,计数、连续值或字符串被添加到针对该特征的指纹。如果没有更多特征要评价517,则输出519最后的指纹。图6是根据本发明的实施例的使用位初始化来创建针对生物序列的位集合指纹数据结构的方法的示意性流程图。此处,在一个实施例中,指纹通过将位集合的所有位初始化为零0来初始地创建621,这指示特征的不存在。关于其是否包含该特征查询613生物序列609,并且如果在序列623中找到特征,则特征位被设定615为一1。评价613下一特征。如果没有更多特征要评价617,则输出619最后的指纹。图7是根据本发明的实施例的示出序列评价的滑动窗口技术的实施方式的示意图。在该实施例中,基于图3的生物序列数据结构312内的给定加或减距离窗口内的每个序列位置的邻居来创建指纹。这可以例如使用图3的滑动窗口模块336执行。例如,参考滑动窗口731f,可以看到,在滑动窗口的中心的序列位置A由加或减三个序列位置内的邻居即,位置A的左边的三个邻居T、G和C和位置A的右边的三个邻居T、A和A围绕。滑动窗口从左到右穿过序列,在位置731a中开始,并且继续通过位置731b到731k。特征被定义为在滑动窗口的每次移动中出现的独特序列。然而,将注意到,当滑动窗口从左边进入序列在图7中,从731a开始时,并且当其离开序列到右边在图7中,以731k结束时,滑动窗口中的项的数目减少。因此,位置731a仅包含三个位置,位置731b包含四个位置,位置731c包含五个位置,位置731d包含六个位置,并且位置731e包含七个位置。七个位置当滑动窗口稍微到右边在位置731f到731h中时继续,但是从731i开始,当滑动窗口向右滑动离开序列时,滑动窗口包含六个、五个、四个等位置。可以看到,在该范例中,第一个位置和最后一个位置在四个特征731a-731d和731h-731k中出现,然而中间位置在七个特征731c到731i中出现。因此,在一个实施例中,滑动窗口技术的变型是在序列的开始和或结束处使用例如三个“锚定”字符,而不是仅一个锚定字符。“^”和“$”分别是指示图7中的序列的开始和结束的锚定字符。因此,序列可以被记录在数据结构中作为:^^^ATGCATAAT$$$而不是^ATGCATAAT$。这将允许与在中间位置诸如图7中的位置731e到731h的其他碱基残基相比较对开始和结束碱基残基的等同采集。另外,通配符符号可以根据图7的实施例和本文教导的本发明的其他实施例来使用以便符号表示任何残基或碱基或者任何多个残基或碱基可以存在于通配符符号的位置处并且仍然被认为是与模式匹配。图8是根据本发明的实施例的示出对不同长度的独特序列字符串的确定的实施方式的示意图。此处,例如,图3的独特序列模块338可以被用于浏览图3的生物序列数据结构312并且确定针对给定N或N的范围的序列中的所有独特N-mer,诸如图8中所示的1-mer、2-mer、3-mer、4-mer和5-mer。在图8中的1-mer中,独特特征是A、T、G和C;然而在2-mer中,独特特征是AT、TG、GC、CA、TA和AA;在3-mer中,独特特征是ATG、TGC、GCA、CAT、TAA和AAT;等等。一旦序列中的所有独特n-mer被找到,每个n-mer就被用作指纹数据结构的分量特征,并且其存在或不存在可以例如被用作位集合中的位诸如图1的118。可能的是,对于低复杂性序列或者很长的序列而言,由于这样的序列中的特征冲突,因而取代或者除了设定位集合中的位,该技术可以通过使用特征计数来改进。图9是根据本发明的实施例的示出序列评价的扩展连接性技术的实施方式的示意图。该技术可以例如基于生物序列数据结构312使用图3的扩展连接性模块340来实施。该技术包含合并生物序列数据结构312的较小整数长度的连续单元的相邻独特序列字符串来创建作为生物序列数据结构312的较大整数长度的连续单元的独特序列的独特序列字符串。作为范例,参考图9,技术从n-mer的集合开始并且然后逐渐地将他们接合成较大的n-mer。首先,从单独的碱基残基开始,独特序列;此处,在图9的步骤1中,单独碱基残基的独特特征是A、T、G和C。然后,相同尺寸的两个相邻序列被合并到彼此,如在步骤2中,并且创建的每个独特序列是特征。例如,在步骤2中,新独特特征是AT、GC和AA。该过程针对n-mer的逐渐地更高的尺寸继续,例如以图9的步骤3和步骤4中的长度四和八的n-mer继续。如此确定的独特字符串被用作指纹数据结构的分量特征,例如通过取决于诸如独特字符串的存在或不存在而设定位集合中的位,或者通过使用针对如此创建的独特序列的计数、字符串或连续值。在一个范例中,未合并的任何碱基残基合并基团被丢弃,并且合并从第一个位置开始。然而,该技术上的其他变型可以包括从第一个位置合并的备选方案,诸如在最后一个位置处开始合并;在第一个位置和最后一个位置两者处开始合并,并且在中间相遇;或者重复合并两次,一次从第一个位置,一次从最后一个位置。此外,未合并的碱基残基基团的处理可以改变,例如通过将未合并的碱基残基基团合并到最相邻的基团中。根据本发明的实施例,扩展连接性序列评价的这样的技术可以使用在DavidRogers和MathewHahn的Extended-ConnectivityFingerprintsJournalofChemicalInformationandModeling2010505,742-754.DOI:10.1021ci100050t.http:pubs.acs.orgdoiabs10.1021ci100050t中教导的特征中的任何,其全部教导通过引用并入本文。图10是根据本发明的实施例的示出与相似性评价模块1046、分析模块1048、机器学习模块1050、搜索模块1052和或宏基因组模块1054交互的生物序列位集合1018指纹数据结构1010的示意性框图。除在别处示出的部件之外,根据本发明的实施例可以例如包括这样的模块中的一个或多个。在图10的实施例中,相似性评价模块1046可以被用于确定序列与数据库中的其他序列多么相似。指纹数据结构1010中的特征可以被散列到表示位集合1018中的位的独特值,并且指纹1010可以是针对特征的存在的“是否”,或者指纹数据结构1010可以包括特征的计数、连续值或字符串。相似性评价模块1046可以包括序列掩蔽模块1056,其允许对序列的掩蔽,使得仅感兴趣序列被表示在指纹中;例如,个人可以掩蔽抗体序列,使得仅捕获到抗体序列的CDR3区域。根据本发明的实施例,两个不同的生物序列数据结构的指纹可以例如通过比较针对每个指纹的位集合1018中的每个位的值来进行比较。这可以例如通过取两个指纹之间的谷本距离以确定两者之间的相似性来执行。此处,谷本距离基于在DavidJ.Rogers和TaffeeT.Tanimoto1960的“AComputerProgramforClassifyingPlants”Science1323434:1115-1118中给出的技术来定义,其全部教导通过引用并入本文。特别地,谷本距离可以被确定为:其中,在位图上给定相似性比率Ts,其中,固定大小的阵列的每个位表示被建模的特性的存在或不存在,其中样本X和Y是位图,Xi是X的第i位,并且∧和∨分别是逐位“and”和“or”操作符。此处,位图的概念代替地与根据本发明的实施例的指纹数据结构的位集合中的位一起使用。如果每个样本相反被建模为属性集合,则该值等于如下面定义的两个集合的杰卡德系数。将理解到,可以使用适合于确定指纹数据结构的位集合或其他特征分量之间的相似性或距离的其他技术,包括比较计数、字符串和连续值之间的相似性或距离的技术。例如,可以使用杰卡德相似系数或者其补码,其被定义为交集的大小除以样本集的并集的大小,或者:对于集合A、B而言,如果A和B两者是空的,则我们定义JA,B=1,并且:0≤JA,B≤1.在图10的实施例中,分析模块1048可以被用于在指纹数据结构1010上执行分析。例如,试验相关性模块1058可以被用于确定指纹数据结构1010的什么序列位或者其他特征分量与试验结果相关。另外,在图10的实施例中,机器学习模块1050可以被用于确定指纹数据结构1010的什么序列位或者其他分量特征在序列中是重要的。例如,结构活性关系SAR或定量结构活性关系QSAR模块1060可以被用于分析指纹数据结构1010以确定指纹数据结构1010的什么分量特征在生物序列数据结构中是重要的。机器学习模块1050还可以在指纹数据结构1010上执行贝叶斯学习和其他技术。另外,在图10的实施例中,搜索模块1052可以被用于在指纹数据结构1010上执行搜索。例如,搜索逻辑模块102可以被用于使用诸如AND、OR、FOLLOWING、BUTNOT的术语和其他搜索术语来搜索指纹数据结构1010。可以执行诸如以下的询问:什么序列在序列中具有[位A]和[位B]?什么序列在序列中具有跟随[位A]的[位B]?什么序列在序列中具有[位A]而没有[位B]?将理解到,可以执行其他搜索。另外,在图10的实施例中,宏基因组模块1054可以被用于在指纹数据结构1010上执行宏基因组分析。这样的模块1054可以例如确定指纹数据结构1010的哪些分量特征诸如位集合1018的哪些位被表示在生物序列数据结构中。根据本发明的实施例,在执行了使用模块1046的相似性评价、使用模块1048的分析、使用模块1050的机器学习、使用模块1052的搜索或者使用模块1054的宏基因组分析中的一个或多个之后,根据本发明的实施例包括基于这样的分析的结果来选择一个或多个生物序列以用作用于药物的合成或者发现的基础,用于改进试验的结果,并且执行利用生物序列的生产过程的一个或多个更改或者添加,以及与本文中的教导一致的其他生物过程改进或者更改。如本文所使用的,对应于生物序列数据结构的“位集合”包括特征位,其中,每个位对应于生物序列数据结构的独特分量特征,并且其中,位的一个值意指特征存在于生物序列数据结构中,并且位的另一值意指特征不存在于生物序列数据结构中。虽然在本文中已经描述了其中除一个或多个其他特征分量诸如计数、字符串和连续值之外指纹数据结构1010例如,参见图1可以包括位集合1018的实施例,但是应当理解,在一些实施例中,指纹数据结构1010可以仅包括分量特征的位集合1018。如此处使用的,“生物序列”是包括核酸或者蛋白质的序列。如本文所使用的,“核酸”指代由单体核苷酸链聚合物或者低聚物组成的高分子。最常见的核酸是脱氧核糖核苷酸DNA和核糖核苷酸RNA。还应当理解,本发明可以被用于包含诸如尤其肽核酸PNA、吗啉代、锁核酸LNA、乙二醇核酸GNA和苏糖核酸TNA的人造核酸的生物序列。在本发明的各种实施例中,核酸可以从各种来源诸如细菌、病毒、人类和动物以及诸如尤其植物和真菌的来源导出。来源可以是病菌。备选地,来源可以是合成有机体。核酸可以是基因组的、染色体外的或者合成的。在本文中使用术语“DNA”的情况下,本领域的普通技术人员将理解到,本文所描述的方法和设备可以适用于其他核酸例如,RNA或者上文提到的那些。另外,术语“核酸”、“多核苷酸”和“低核苷酸”在本文中被用于包括任何长度的核苷酸的多体酶形式,包括但不限于核糖核苷酸或者脱氧核糖核苷酸。不存在这些术语之间的长度的预期区别。而且,这些术语仅指代分子的主要结构。因此,在某些实施例中,这些术语可以包括三链、双链和单链DNA、PNA,以及三链、双链和单链RNA。其还包括修改,诸如通过甲基化和或通过加帽,以及未修改的形式的多核苷酸。更特别地,术语“核酸”、“多核苷酸”和“低核苷酸”包括多脱氧核糖核苷酸包含2-脱氧-D-核糖、多核糖核苷酸包含D-核糖、作为嘌呤或者嘧啶碱的N或C配糖的任何其他类型的多核苷酸,以及包含非核苷酸骨干的其他聚合物,例如,聚酰胺例如,肽核酸PNA和从美国俄勒冈科瓦利斯的Anti-Virals公司可购买到的聚吗啉代聚合物,以及其他合成序列特定核酸聚合物,其提供了聚合物包含允许诸如在DNA和RNA中找到的碱基对和碱基堆积的配置中的核酸碱基。如本文所使用的,“蛋白质”是包括氨基酸的一个或多个链的生物分子。蛋白质主要地在其氨基酸序列上彼此不同,其由编码基因的核苷酸序列指示。肽是通过相邻的氨基酸残基的羧基与氨基团之间的肽键而结合在一起的两个或更多个氨基酸的单个线性聚合物链;链中的多个肽可以被称为多肽。蛋白质可以由一个或多个多肽制成。在合成之后不久或者甚至在合成期间,蛋白质中的残基常常化学上由转译后的修改来修改,其改变物理和化学性质、折叠、稳定性、活性并且最终改变蛋白质的功能。有时蛋白质具有附接的非肽基团,其可以被称为辅基或者辅因子。另外,将理解到,生物序列可以包括非自然碱基和残基,例如被插入到生物序列中的非自然氨基酸。在根据本发明的实施例中,被描述为由一个处理器实施的过程可以由被配置为执行所描述的过程其可以被同步或异步并行执行的部件处理器和或处理器的集群来实施。这样的部件处理器可以被实施在单个机器上、被实施在多个不同的机器上、以分布式方式被实施在网络中或者被实施为在前述内容中的任何上实现的程序模块部件。图11图示了本发明的实施例可以被实施于其中的计算机网络或者类似数字处理环境。一个或多个客户端计算机设备50和一个或多个服务器计算机60提供执行应用程序等的处理、存储和输入输出设备。一个或多个客户端计算机设备50还可以通过通信网络70链接到其他计算设备,包括其他客户端设备过程50和一个或多个服务器计算机60。通信网络70可以是远程访问网络、全球网络例如,因特网、世界范围的计算机的汇集、局域网或者广域网和当前使用相应协议TCPIP、等与彼此通信的网关的一部分。其他电子设备计算机网络架构是适合的。图12是图11的计算机系统中的计算机例如,客户端处理器设备50或者服务器计算机60的范例内部结构的示图。每个计算机50、60包含系统总线79,其中,总线是被用于计算机或者处理系统的部件之间的数据传输的硬件线的集合。系统总线79基本上是共享管道,其连接计算机系统的不同的元件例如,处理器、磁盘存储装置、存储器、输入输出端口、网络端口等使得能够在元件之间传输信息。附接到系统总线79的是用于将各种输入和输出设备例如,键盘、鼠标、显示器、打印机、扬声器等连接到计算机50、60的IO设备接口82。网络接口86允许计算机连接到附接到网络例如,图11的网络70的各种其他设备。存储器90提供用于被用于实施本发明的实施例的计算机软件指令92和数据94的易失性存储在本文中详述的序列评价模块106、分量特征编辑器模块108、主要特征模块220、次要特征模块224、第三特征模块228、第四特征模块232、滑动窗口模块336、独特序列模块338、扩展连接性模块340、模式位置模块342、模式存在模块344、相似性评价模块1046、分析模块1048、机器学习模块1050、搜索模块1052和宏基因组模块1054。磁盘存储装置95为用于实施本发明的实施例的计算机软件指令92和数据94提供非易失性存储。中央处理器单元84还被附接到系统总线79并且提供计算机指令的执行。在一个实施例中,处理器例程92和数据94是计算机程序产品大体引用为92,包括非瞬态计算机可读介质例如,可移除的存储介质,诸如一个或多个DVD-ROM、CD-ROM、磁盘、磁带等,其提供用于本发明的系统的软件指令的至少一部分。计算机程序产品92可以通过任何适合的软件安装流程来安装,如本领域中众所周知的。在另一实施例中,软件指令的至少一部分还可以通过线缆通信和或无线连接来下载。在其他实施例中,本发明的程序是在传播介质上的传播信号上实现的计算机程序传播信号产品例如,无线电波、红外线波、激光波、声波或者通过全球网络诸如因特网或者一个或多个其他网络传播的电波。这样的载体介质或者信号可以被用于提供用于本发明的例程程序92的软件指令的至少一部分。在备选实施例中,传播信号是在传播介质上承载的模拟载波或者数字信号。例如,传播信号可以是通过全球网络例如,因特网、电信网络或者其他网络传播的数字化信号。在一个实施例中,传播信号是在一段时间内通过传播介质传送的信号诸如在几毫秒、几秒、几分钟或更长的时段内通过网络在分组中发送的软件应用的指令。本文引用的所有专利、公布的申请和参考文献的教导通过引用整体并入。虽然已经具体地示出并且描述了范例实施例,但是本领域的技术人员将理解到,在不脱离由权利要求书涵盖的实施例的范围的情况下,可以在其中做出形式和细节上的各种改变。

权利要求:1.一种用于形成表示生物序列的指纹数据结构的计算机实现的方法,所述计算机实现的方法包括:针对要使用在所述指纹数据结构中的多个分量特征中的每个分量特征,关于表示所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询所述生物序列数据结构;并且将分量特征条目添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构;所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的所述至少一部分。2.根据权利要求1所述的计算机实现的方法,其中,所述指纹数据结构的至少一个分量特征条目的值包括以下各项中的至少一项:所述生物序列数据结构中的所述特征的计数;表示所述至少一个分量特征条目的字符串;以及表示所述至少一个分量特征条目的连续数值。3.根据权利要求1所述的计算机实现的方法,其中,所述指纹数据结构的至少一个分量特征条目的值包括将所述生物序列作为整体来表征的值。4.根据权利要求1所述的计算机实现的方法,其中,所述指纹数据结构的至少一个分量特征包括从所述生物序列数据结构计算或导出的特征。5.根据权利要求4所述的计算机实现的方法,其中,从所述生物序列数据结构计算或导出的所述特征包括在滑动窗口在所述生物序列数据结构中的多次移动中出现的独特序列的存在或不存在,所述滑动窗口包括基本位置单元的给定距离的单元内的相邻单元。6.根据权利要求4所述的计算机实现的方法,其中,从所述生物序列数据结构计算或导出的所述特征包括所述生物序列数据结构的给定整数长度的连续单元的独特序列字符串的存在或不存在。7.根据权利要求6所述的计算机实现的方法,其中,所述独特序列字符串包括通过合并所述生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串而创建的所述生物序列数据结构的较大给定整数长度的连续单元的独特序列字符串。8.根据权利要求4所述的计算机实现的方法,其中,从所述生物序列数据结构计算或导出的所述特征包括以下各项中的至少一项:所述生物序列数据结构中的至少一个模式的存在或不存在;以及所述生物序列数据结构的至少一个位置中的至少一个模式的存在或不存在。9.根据权利要求1所述的计算机实现的方法,其中,所述指纹数据结构的至少一个分量特征包括表示所述生物序列的注释的特征。10.根据权利要求1所述的计算机实现的方法,其中,所述指纹数据结构的至少一个分量特征包括表示所述生物序列的两个或更多个其他分量特征之间的次序关系或距离关系中的至少一个的特征。11.一种计算机系统,包括:处理器;以及存储器,其具有被存储在其上的计算机代码指令,所述处理器和所述存储器以及所述计算机代码指令被配置为实施:序列评价模块,其被配置为针对要使用在指纹数据结构中的多个分量特征的每个分量特征,关于表示所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询所述生物序列数据结构;以及分量特征编辑器模块,其被配置为针对每个这样的分量特征,将分量特征条目添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构;所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的所述至少一部分。12.根据权利要求11所述的计算机系统,所述序列评价模块还被配置为查询所述生物序列数据结构来确定包括将所述生物序列作为整体来表征的值的所述指纹数据结构的至少一个分量特征条目的值。13.根据权利要求11所述的计算机系统,所述序列评价模块还被配置为查询所述生物序列数据结构来确定包括从所述生物序列数据结构计算或导出的特征的至少一个分量特征。14.根据权利要求13所述的计算机系统,其中,所述序列评价模块还被配置为至少基于在滑动窗口在所述生物序列数据结构中的多次移动中出现的独特序列的存在或不存在来确定从所述生物序列数据结构计算或导出的所述特征,所述滑动窗口包括基本位置单元的给定距离的单元内的相邻单元。15.根据权利要求13所述的计算机系统,其中,所述序列评价模块还被配置为至少基于所述生物序列数据结构的给定整数长度的连续单元的独特序列字符串的存在或不存在来确定从所述生物序列数据结构计算或导出的所述特征。16.根据权利要求15所述的计算机系统,其中,所述序列评价模块还被配置为通过合并所述生物序列数据结构的较小整数长度的连续单元的相邻独特序列字符串来创建作为所述生物序列数据结构的较大整数长度的连续单元的独特序列的所述独特序列字符串而确定所述独特序列字符串。17.根据权利要求13所述的计算机系统,其中,序列评价模块还被配置为基于以下各项中的至少一项来确定从所述生物序列数据结构计算或导出的所述特征:所述生物序列数据结构中的至少一个模式的存在或不存在;以及所述生物序列数据结构的至少一个位置中的至少一个模式的存在或不存在。18.根据权利要求11所述的计算机系统,所述序列评价模块还被配置为查询所述生物序列数据结构来确定包括表示所述生物序列的注释的特征的至少一个分量特征。19.根据权利要求11所述的计算机系统,所述序列评价模块还被配置为查询所述生物序列数据结构来确定表示所述生物序列的两个或更多个其他分量特征之间的次序关系或距离关系中的至少一个的至少一个分量特征。20.一种非瞬态计算机可读介质,其被配置为存储用于形成表示生物序列的指纹数据结构的指令,所述指令当由处理器加载和运行时,使所述处理器通过以下各项来形成表示生物序列的指纹数据结构:针对要使用在所述指纹数据结构中的多个分量特征中的每个分量特征,关于所述生物序列的生物序列数据结构中的所述分量特征的存在或值查询表示所述生物序列的生物序列数据结构;并且将分量特征条目添加到对应于针对所述分量特征查询所述生物序列数据结构的结果的所述指纹数据结构;所述指纹数据结构的所述分量特征条目的至少一部分包括位集合的特征位,所述位集合包括所述指纹数据结构的所述分量特征条目的所述至少一部分。

百度查询: 达索系统美国公司 生物序列指纹

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。