【发明公布】一种基于最长路径搜索的三代序列比对方法_宝鸡文理学院_202310880826.0

导航：龙图腾网> 最新专利技术> 一种基于最长路径搜索的三代序列比对方法_宝鸡文理学院_202310880826.0

申请/专利权人：宝鸡文理学院

申请日：2023-07-18

公开（公告）日：2023-12-26

公开（公告）号：CN117292751A

主分类号：G16B30/10

分类号：G16B30/10;G16B50/00;G06F16/901

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.01.12#实质审查的生效;2023.12.26#公开

摘要：本发明提供了一种基于最长路径搜索的三代序列比对方法。首先构建参考基因组序列的哈希索引，然后提取待比对序列每个k‑mer，通过哈希索引查找其在基因组中的所有位置；将每个匹配的k‑mer看作节点，构建k‑merl‑邻域有向无环图；根据匹配的k‑mer在待比对序列中的位置信息，可以确定节点是否有边相连及方向；再过滤掉孤立节点和规模较小的孤立网络，设计动态打分策略，确定每个节点的前驱节点，从前驱节点中选取最大得分，并记录得分路径；选取最长路径；可将待比对序列和参考基因组分成种子区域和非种子区域；对于非种子区域，采用传统的双序列比对方法得到详细的碱基比对结果，最后与种子区域合并，得到整条序列的比对结果。

主权项：1.一种基于最长路径搜索的三代序列比对方法，其特征在于，包括下述步骤：步骤1：构建基因组k-mer位置文库基因组k-mer位置文库指的是存储基因组k-mer子片段位置的哈希表，首先提取基因组序列的所有k-mer子片段，然后采用哈希函数进行k-mer转换，并将k-mer在基因组中的位置存储到哈希表中，具体实现过程为：1根据k-mer大小Γ创建长度为4Γ的哈希表，即数组，用来存储相应k-mer在基因组中的位置；2提取基因组序列的所有k-mer，k-mer是指基因组序列中包含k个碱基的子片段，对于一条长度为L的基因组DNA序列，在k-mer长度为Γ的情况下，基因组所有k-mer个数为L-Γ+1；3对基因组序列第一个k-mer进行哈希转换，假设该k-mer长度为Γ可表示为：w＝c1,c2,...,cΓ，其在哈希表中的存储地址可通过以下哈希函数计算得到：式中4Γ-γ是k-mer中第γ个位置上碱基cγ的权重，Icγ是索引函数，定义为：每个k-mer的哈希编码可看作是Γ位四进制数的一个转换，通过公式1计算基因组序列每个k-mer哈希值即为该k-mer在位置文库中的索引位置，然后将此k-mer在基因组中的位置存储到该索引下的数组中；4重复步骤3计算基因组所有k-mer的哈希值并存储其在基因组中的位置，当存储完所有k-mer位置信息后，即为构建的基因组k-mer位置文库；步骤2：匹配k-mer表示及修正首先提取待比对序列的所有k-mer；然后根据上一步构建的基因组k-mer位置文库找到待比对序列每个k-mer在基因组中出现的位置；然后对每个匹配的位置信息进行修正，这样可以使反向匹配节点的分布变化趋势与正向匹配节点的变化趋势一致；具体实现步骤如下：1对于待比对序列r，提取r的所有k-mer，然后通过公式1计算哈希值，即可找到该k-mer在基因组中的位置信息，序列r每个k-mer及其在基因组中的位置可用一个四元组表示：matchipr,pg,dr,dg3式中matchipr表示第i个匹配在序列r中的位置，matchipg表示第i个匹配在参考基因组中的位置，matchidr和matchidg分别表示第i个匹配在序列r中和在参考基因组中的方向1表示正向，0表示反向；2通过公式3找出序列r每个k-mer的四元组信息后，用以下公式对反向匹配的k-mer位置信息进行修正，将其转换为三元组信息，这样可将反向匹配的k-mer变化趋势与正向匹配的变化趋势一致；使正确匹配的k-mer线性化；修正公式为：根据上式可以观察到mi与matchi的主要区别是待比对序列中的位置和方向表示；如果matchidr和matchidg方向一致，则mir＝‘+’，mipr＝matchipr，否则mir＝‘-’，mipr＝lenr–matchipr，其中lenr表示序列r的长度；mir表示匹配方向一致性，‘+’表示当前k-mer匹配到参考基因组的正链，‘-’表示匹配到反链；最后，修正后的k-mer集合表示为：M＝{m1,…,mi,…,mNm}，其中Nm表示匹配k-mer总个数；步骤3：构建k-mer有向无环图假设M中的所有k-mer都可以用于构建一个有向无权网络，其中每个k-mer可以作为节点，每对k-mer之间根据其距离判断是否有边相连；对于每个节点vivi＝mi，计算其l-邻域节点，添加vi指向其邻域节点的连边；对于节点vi，其l-邻域节点定义为满足下面公式的节点集合：vjpr-viprl；参数l表示两个节点之间允许的最大距离，一般情况下l为待比对序列的长度；步骤4：最长路径选取对于上述构建的有向图，首先过滤掉单个节点和较小的孤立子图少于8个节点的子图，这样可以避免路径搜索空间；对于剩余的节点，选择包含最多节点数的最长路径作为最佳比对骨架；最长路径选取先给每个节点进行打分，公式为：式中scorevi表示每个节点的得分，previ表示指向vi的节点集合或称为前驱结点；表示从每个节点的前驱节点中选取最大得分，并记录得分路径；考虑到序列中可能存在的测序错误或结构变异，选择前NN的默认值为10个最长且不重叠路径作为最终的比对骨架；步骤5：最终比对结果每个路径包含的节点可将待比对序列与参考基因组序列分割成成对的子片段，然后采用传统的双序列比对方法得到子片段的详细比对结果，最终与k-mer合并，得到整条序列的比对结果。

全文数据：

权利要求：

百度查询：宝鸡文理学院一种基于最长路径搜索的三代序列比对方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

下一篇：一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

相关技术

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

具有高吞吐量的多反射质谱仪_莱克公司_202011284023.1

移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

一种特殊螺纹上扣扭矩的分类识别方法及识别设备_中国石油天然气股份有限公司_202110576266.0

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

一种弱监督云检测方法_安徽大学_202310764234.2

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

一种基于Flink流处理的地铁轨道几何检测数据清洗方法_成都国铁电气设备有限公司_202210023454.5

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

最长相关技术

基于最长汇水路径的公路超高缓和段排水系统及设置方法_广西北投交通养护科技集团有限公司_202311463307.0

基于最长水平直线的引脚名称上划线检测方法及设备_粤港澳大湾区(广东)国创中心_202311573272.6

一种用于找出两条轨迹的最长伴随子路径的分析方法_深圳市甲易科技有限公司_201911164357.2

融合距离和最长前缀的数字对象分布式搜索方法及装置_北京大学_202311167276.4

一种基于最长路径搜索的三代序列比对方法_宝鸡文理学院_202310880826.0

一种鸡最长站立时间测试装置_四川农业大学_202320914801.3

基于最长字符串宽高推算表格内容宽高的自适应算法_杭州观远数据有限公司_202311024021.2

一种用电设备最长容许失电时间的测试系统及其测试方法_杭州意能电力技术有限公司_201710434097.0

融合距离和最长前缀的数字对象分布式搜索方法及装置_北京大学_202311167276.4

一种工业互联网中设备间最长数据延迟的测量方法和系统_北京航空航天大学杭州创新研究院_202310826633.7

序列相关技术

抗IL-13长效纳米抗体序列及其应用_上海洛启生物医药技术有限公司_202211394330.4

无线电承载的序列号转移_谷歌有限责任公司_202080052324.3

基于图注意机制的肽序列标签鉴定方法_湖南工商大学_202310866226.9

一种密集果品序列采摘规划方法_山东农业大学_202410155677.6

细胞核基因ITS序列在鉴定韭菜子中的应用_江阴天江药业有限公司_202410212718.0

一种短时突发通信前导序列时频同步方法及系统_中国电子科技集团公司第十研究所_202410153492.1

基于数据序列的峰值查找方法、装置及电子设备_一网互通(北京)科技有限公司_202410410416.4

基于时间序列预测与深度学习互补的短期负荷预测方法_国网辽宁省电力有限公司_202311867723.7

一种基于时间序列多尺度钢轨伤损缺陷的检测方法_深圳市比一比网络科技有限公司_202111260216.8

一种基于分解的多元时间序列预测方法_苏州岽睿微电子科技有限公司_202410307091.7

方法相关技术

制造方法_意法半导体(克洛尔2)公司_202311475458.8

增殖方法_花王株式会社_202080014224.1

训练数据生成方法、图像检测方法、图像分类方法及装置_第四范式(北京)技术有限公司_202211345497.1

图像特征处理方法、图像对比方法、模型训练方法及装置_浙江深象智能科技有限公司_202410418358.X

编码方法、解码方法和处理比特流的方法_松下电器(美国)知识产权公司_202410304249.5

控制棒组件的安装方法、取出方法以及更换方法_中国原子能科学研究院_202111129136.9

排烟机拖车及其掉头方法、自行行走方法_苏州瑞奇安机电科技有限公司_202410210474.2

视频处理方法、影视视频处理方法及装置_阿里巴巴集团控股有限公司_202010147566.2

半导体结构及其制备方法、晶圆切割方法_北京弘图半导体有限公司_202410157714.7

喷墨记录方法及层合体的制造方法_富士胶片株式会社_202280064929.3

龙图腾网&IPTOP

【发明公布】一种基于最长路径搜索的三代序列比对方法_宝鸡文理学院_202310880826.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务