【发明公布】用于识别引起序列特异性错误(SSE)的序列图案的基于深度学习的框架_因美纳有限公司_201980003258.8 

申请/专利权人:因美纳有限公司

申请日:2019-07-09

发明/设计人:D·卡什夫哈吉;A·起亚;K-H·法尔

公开(公告)日:2020-03-17

代理机构:北京泛华伟业知识产权代理有限公司

公开(公告)号:CN110892484A

代理人:王勇

主分类号:G16B40/20(20060101)

地址:美国加利福尼亚州

分类号:G16B40/20(20060101);G16B20/20(20060101);G06N3/04(20060101)

优先权:["20180816 NL 2021473","20180711 US 62/696699","20190708 US 16/505100"]

专利状态码:在审-公开

法律状态:2020.03.17#公开

摘要:所公开的技术提出一种识别引起序列特异性错误SSE的序列图案的基于深度学习的框架。系统和方法以大规模变体数据训练变体滤波器以学习序列图案和虚假变体识别之间的因果相关性。所述变体滤波器具有分层结构,所述分层结构构建于深度神经网络上,诸如卷积神经网络和全连接神经网络。系统和方法实施模拟,所述模拟利用所述变体滤波器来测试已知序列图案对于变体滤波的影响。所述模拟的前提如下:当将一对待测重复图案和识别的变体馈送至所述变体滤波器作为模拟输入序列的一部分并且所述变体滤波器将识别的变体分类为虚假变体识别时,那么所述重复图案视为已引起所述虚假变体识别并且识别为SSE起因。

主权项:1.一种用于识别引起核苷酸测序数据中的序列特异性错误的重复图案的系统,包括:一个或多个处理器和存储指令的一个或多个存储装置,所述指令当在所述一个或多个处理器上执行时引起所述一个或多个处理器实施:输入准备子系统,所述输入准备子系统配置成:将待测重复图案以计算方式重叠于多个核苷酸序列上并且产生重叠样品,其中每个重复图案表示特定核苷酸组成,所述特定核苷酸组成具有特定长度并且在重叠样品中出现于特定偏移位置,其中每个重叠样品具有视为变体核苷酸的靶位置,并且其中对于所述特定核苷酸组成、所述特定长度和所述特定偏移位置的每种组合,以计算方式生成一组所述重叠样品;预训练变体滤波器子系统,所述预训练变体滤波器子系统配置成:通过卷积神经网络处理所述重叠样品,并且基于所述重叠样品中的核苷酸图案通过所述卷积神经网络的卷积滤波器的检测,生成每个所述重叠样品中的所述变体核苷酸为真实变体或虚假变体的可能性的分类分数;重复图案输出子系统,所述重复图案输出子系统配置成:输出所述分类分数的分布,所述分类分数指示由所述重复图案的存在所得出的所述预训练变体滤波器子系统对于虚假变体分类的敏感性;和序列特异性错误关联子系统,所述序列特异性错误关联子系统配置成:基于阈值而将所述分类分数的子组规定为指示所述虚假变体分类,以及将与指示所述虚假变体分类的所述分类分数的所述子组相关联的那些重复图案分类为引起所述序列特异性错误。

全文数据:

权利要求:

百度查询: 因美纳有限公司 用于识别引起序列特异性错误(SSE)的序列图案的基于深度学习的框架

vip会员权益升级
价格优惠/年费监控/专利管家/定制微网站 关闭