申请/专利权人:广东省农业科学院水稻研究所
申请日:2023-08-29
公开(公告)日:2024-04-30
公开(公告)号:CN117095747B
主分类号:G16B20/20
分类号:G16B20/20;G16B30/10;G16B40/00;G16B50/30;G06N3/048;G06N3/0499;G06N3/084;G06N3/0985
优先权:
专利状态码:有效-授权
法律状态:2024.04.30#授权;2023.12.08#实质审查的生效;2023.11.21#公开
摘要:本发明公开了一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法,将群体高深度测序数据挂载到线性泛基因组上;根据群体中每个样品的二代测序序列覆盖情况,检测每个窗口被测序序列完全覆盖的情况,记录窗口位置信息和完全覆盖该窗口的reads数量;构建人工智能模型,通过模拟数据训练模型使其能判定连续窗口覆盖区域是否包含倒位或转座子端点;利用模型扫描一条染色体上的所有区域,得到其上的所有倒位或转座子端点信息,依次扫描多条染色体,汇总成一个样品所有染色体上的倒位或转座子端点信息;基于不同样品,整理并筛选群体水平的倒位或转座子端点基因型矩阵。本发明实现了利用二代测序数据检测转座子和倒位端点基因型。
主权项:1.一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法,其特征在于,包括以下步骤:步骤一:使用比对软件将群体高深度测序数据挂载到线性泛基因组上;步骤二:根据群体中每个样品的二代测序序列覆盖情况,利用划窗口的方式检测每个窗口被测序序列完全覆盖的情况,记录窗口位置信息和完全覆盖该窗口的测序序列数量,生成数据框文件;所述窗口指基因组上的一段39bp的区域,该窗口的位置命名以所在染色体和窗口中间位置组合命名;划窗口的步长为20bp;所述完全覆盖是指测序序列的最左边在窗口的左边,并且测序序列左边位置加上序列匹配到泛基因组上的碱基数与检测到的缺失碱基数之和大于窗口的右边位置;步骤三:构建出一个人工智能模型,通过模拟数据训练该模型使其能根据步骤二得到的固定数量、连续的窗口位置和序列数量信息判定连续窗口覆盖区域是否包含倒位或转座子端点;步骤四:利用步骤三的模型扫描一条染色体上的所有区域,得到该染色体上的所有倒位或转座子端点位置信息,依次扫描多条染色体,汇总成一个样品所有染色体上的倒位或转座子端点信息;步骤五:基于不同样品的倒位或转座子端点信息,整理并筛选群体水平的倒位或转座子端点基因型矩阵。
全文数据:
权利要求:
百度查询: 广东省农业科学院水稻研究所 一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。