申请/专利权人:深圳华大基因科技服务有限公司
申请日:2019-12-06
公开(公告)日:2023-05-30
公开(公告)号:CN112927756B
主分类号:G16B25/10
分类号:G16B25/10
优先权:
专利状态码:有效-授权
法律状态:2023.05.30#授权;2021.06.25#实质审查的生效;2021.06.08#公开
摘要:一种鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法,其中鉴别转录组rRNA污染源的方法包括:获取待鉴别的样本的转录组二代测序数据;将转录组二代测序数据比对到参考基因组,获得rRNA测序数据占二代测序数据的比例超过第一预设值的候选样本;分析候选样本中rRNA测序数据比对到基因组反义链的情况得到rRNA残留的样本;对rRNA残留的样本的rRNA测序数据进行设定区域的覆盖度分析获得测序读长深度分布结果;将测序读长深度分布结果与深度分布预设模型进行比较,得到由于样本变性不完全导致的rRNA污染情况。本发明解决rRNA污染比例高的问题,节约RNA‑seq建库和测序成本。
主权项:1.一种鉴别转录组rRNA污染源的方法,其特征在于,所述方法包括:获取至少一个待鉴别的样本的转录组二代高通量测序数据;将所述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占所述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;分析所述候选样本中所述rRNA测序数据比对到基因组反义链的情况,将所述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;针对所述rRNA残留的情况,对所述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;所述测序读长深度分布结果是读长深度分布图,所述读长深度分布图上呈现设定区间范围内的测序读长深度,所述深度分布预设模型包括所述设定区间范围和所述测序读长深度的阈值区间;所述设定区域是rRNA长度超过第三预设值、GC%含量超过第四预设值且具有形成二级结构倾向的区域;将所述测序读长深度分布结果与深度分布预设模型进行比较,得到与所述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
全文数据:
权利要求:
百度查询: 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。