买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向大规模基因数据的同一认定系统及优化处理方法_武汉大学_202011476095.6 

申请/专利权人:武汉大学

申请日:2020-12-14

公开(公告)日:2024-03-22

公开(公告)号:CN112863607B

主分类号:G16B50/30

分类号:G16B50/30;G16B30/10;G16B25/10

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2021.06.15#实质审查的生效;2021.05.28#公开

摘要:本发明属于计算机领域,具体涉及一种面向大规模基因数据的同一认定系统及优化处理方法,其中,系统采用内外存结合的方式为基因数据及其DNA基因座信息提供了高效的数据组织基础和优化查询保障,索引方法采用分区方式并支持前缀检索,能够保证给定符号的容差DNA匹配无漏滤和无误滤。基于前缀的剪枝过滤方法可以有效利用低频符号的剪枝能力,能够基于低频符号的倒排列表显著剪除与查询序列不相关的DNA序列,保证高效无误的DNA序列匹配。基于外存的关联信息建库方法可以与内存中的DNA序列ID有效关联,可以灵活适配不同的外存架构、保证DNA匹配结果能够在多个维度上与单体信息关联。

主权项:1.一种面向大规模基因数据的同一认定系统,其特征在于,构建高效的索引和存储系统对大规模基因数据进行高效匹配,包括:客户端:发送需要查询的基因序列请求至服务器;服务器:接收客户端用户的基因序列请求信息,调用服务算法提取基因序列请求信息在特征位点上的高低位基因座的值,通过请求服务器得到基因序列的同一认定个体信息,所述服务器包括:索引库:根据上下文不同,对历史库包含不等长基因数据的情况首先进行分区,并对所有历史序列的位点进行符号化、以支持后续索引过程;面向每个单体基因序列提取其在特征位点上的基因型,构建面向同一身份认定的倒排索引优化存取结构;索引结构通过合并每个位点的高低位基因座的值构建索引符号,通过符号到基因序列的映射快速访问基因序列的主键,主键用于唯一标识一个基因序列;为了加快给定基因ID的基因序列提取,构建哈希表结果,维护基因ID到基因符号序列的映射;存储库:用于存储基因序列的基因座的值及其原始基因序列,默认从每条原始基因序列中提取19基因座值对个体进行表达,同时后续所有权力内容支持用户提供的自定义基因座集合;通过两种方式进行存储;其中每个序列的特征基因座的值在内存中保存,而原始基因序列可以通过文件或数据库方式保存于外存中;通过基因序列的主键,快速访问每个基因序列的基因座的值、进而提取其原始序列及其相关个体关联信息;外部关联库:用于获取匹配成功的基因主体的相关身份和社会关系等信息;基于基因提取信息产生时的联系方式或个人身份信息,可以与现有相关信息进行连接、得到外部关联信息;调取匹配单元:接收客户端用户的基因序列请求信息,基于倒排索引及其历史基因数据,调用服务算法提取基因序列请求信息在特征位点上的高低位基因座的值,通过请求服务器得到基因序列的同一认定个体信息;索引库中,基因座的高低位基因座的值通过合并得到符号,该符号的频率差异在过滤阶段提出大量不相关基因序列,因而针对每个待查询基因序列的候选集的验证代价小,具体合并步骤是:步骤2.1、若给定的DNA数据是经过转换的基因型的数字表示,则直接跳转步骤2.3;若给定的DNA数据是尚未经过转换的基因型的数字表示,则需要提取特征位点,在有性繁殖的生物体中,DNA作为遗传物证包含了生物的遗传和性状细信息;在人类基因DNA链上包含遗传信息的片段,采用国际标准命名的基因座即位点名称记录两个等位基因组成的基因型;定义每个位点的高低位基因座值按照数值从小到大排列,则若同一基因座的两组高低位值相等的充分条件是排序后的高低位值分别相等;步骤2.2、若给定的NDA数据仅为ACTG序列构成的原始基因序列,则基于国际基因座规则提取特征位点的高低基因座的值;考虑特征基因座包含下述基因座全集的任意一个子集,或者是包含下属基因座的一个基因座超集:{"","MT1","MT2","AMEL","D8S1179","D21S11","D7S820","CSF1PO","D3S1358","TH01","D13S317","D16S539","D2S1338","D19S433","vWA","TPOX","D18S51","D5S818","FGA","ABOGROUP","PentaD","PentaxE","DYS19","DYS385","DYS389I","DYS389II","DYS390","DYS391","DYS392","DYS393","DYS437","DYS438","DYS439","DYS448","DYS456","DYS458","DYS635","DY_GATA_H4","OLDMAKER","FESFPS","F13A01","PentaE","D19S253","DES","PLA2A","D12S391","MTHIVI","D6S1043","DYS385AB","GATAH4","MIX","B_DYS389","B_DYS389I","B_DYS389II","B_DYS390","B_DYS390II","B_DYS456","DYF387S1ab","DYS385ab","DYS388","DYS389I","DYS389II","DYS444","DYS447","DYS449","DYS460","DYS481","DYS518","DYS522","DYS527","DYS527ab","DYS527ab","DYS533","DYS549","DYS570","DYS576","DYS627","DYS643","DYS64310","G_DYS19","G_DYS1915","G_DYS385","G_DYS458","R_DYS437","R_DYS438","R_DYS448","R_Y_GATA_H","R_Y_GATA_H4","Y-DYS392","YGATAH4","Yindel","Y_DYS385","Y_DYS391","Y_DYS392","Y_DYS393","Y_DYS439","Y_DYS635","Y_GATA_H","Y_GATA_H4","rel"}步骤2.3、采用基因座-高基因座值低基因座值的方式合并一个DNA序列的每个基因型、得到序列的符号集合;步骤2.4、对所有基因经过步骤2.3得到的符号进行频率统计,为每个符号赋予一个序号,序号按照符号的频率从低向高产生;定义该序号为符号的全局序号,该序号用于支持后续的倒排索引组织和剪枝过滤过程;索引方法面向每对高低位基因座值的合并符号构建倒排表,每个倒排表中的项包含了合并符号的基因序列ID、及其该符号在基因序列有序符号集中的位置,基于这些信息在不访问候选基因序列所有符号集的前提下完成对候选符号集的剪枝,具体构建步骤是:步骤3.1、依次考虑每个基因数据集,针对数据集的形态做符号化转换、进而形成符号有序集,具体如下:步骤3.1a、若基因数据为原始形态,则调用步骤2.2提取预定义的基因座的基因型,按照国际方法命名位点的基因型;步骤3.1b、依照步骤2.3对每个DNA序列的基因座做符号化,并基于步骤2.4确定的全局序对每个DNA序列的符号排序;步骤3.2、若所有序列等长,则直接执行步骤3.3,否则对经过转换的DNA序列赋予主键ID、基于其基因座的数量对DNA序列进行从短到长排序;步骤3.3、逐次扫描每条DNA序列的有序符号集,每扫描一个符号创建一个三元组#p,#t,id,分别对应符号所在有序集的位置,序列的符号个数,序列ID,将该三元组到符号所在倒排列表中;若所有符号集等长则结束本步,否则执行下述步骤;步骤3.4、若步骤3.2中维护了DNA的长度信息,则在倒排表中记录长度间隔的跳变信息;待扫描完所有DNA序列的所有符号有序集后,倒排索引创建完成。

全文数据:

权利要求:

百度查询: 武汉大学 一种面向大规模基因数据的同一认定系统及优化处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。