买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】肺癌基因组多类型变异的知识图谱致癌性表示预测方法_广州医科大学_202311543059.0 

申请/专利权人:广州医科大学

申请日:2023-11-18

公开(公告)日:2024-02-09

公开(公告)号:CN117542410A

主分类号:G16B20/20

分类号:G16B20/20;G16B20/30;G16B20/10;G16B25/10;G16B40/00;G16B50/00;G06F16/36

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.09#公开

摘要:本发明公开了一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,首先进行全基因组高通量测序;再进行数据比对与校正;将基因相互作用数据整合;接下来转化异常数据并构建初步知识图谱,纳入附加信息并完善知识图谱;最后完成肺癌基因组知识图谱致癌性表示。本发明可以使特异亚型癌症驱动基因的发现任务具有更为丰富的内涵。

主权项:1.一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,包括以下步骤:步骤1:全基因组高通量测序;选取肺癌样本,采用高通量测序技术,进行DNA和RNA的全基因组测序;对于DNA,使用捕获技术捕获包括外显子、内含子关键区域的序列;对于RNA,采用RNA-Seq方法,进行全长的转录组分析,捕获所有可能的转录变体和表达差异;本步骤输出:完整的肺癌样本DNA和RNA测序数据;步骤2:数据比对与校正;将测序得到的DNA和RNA测序数据与人类参考基因组GRCh38进行比对,确保DNA和RNA测序数据准确性;采用GenomeAnalysisToolkit-GATK工具集进行数据校正;使用GATK内置的BaseRecalibrator进行碱基质量重新校准;利用GATK的HaplotypeCaller或Mutect2工具进行变异检测,鉴定出单核苷酸多态性SNPs、插入缺失Indels基因组变异;利用GATK的CNV的工作流程,检测出基因组的拷贝数变异CNVs;对RNA数据进行分析,结合正常对照组,通过读深信号和转录组组成,鉴定出与正常组相比的差异表达基因;本步骤输出:完整鉴定的肺癌样本的DNA变异数据和RNA表达异常数据;步骤3:基因相互作用数据整合;访问STRING数据库,收集相关的基因或蛋白质之间的已知和预测的相互作用数据;访问iRefIndex数据库,收集肺癌相关基因间的相互作用信息;采用Cytoscape网络分析工具将收集到的基因或蛋白质相互作用数据整合成一个交互网络;在交互网络中,每个节点代表一个基因或蛋白质,邻边代表它们之间的已知或预测相互作用;通过包括网络中心性和聚类系数在内的网络参数,分析基因或蛋白质在网络中的重要性和功能聚类;本步骤输出:构建并优化的肺癌样本中基因相互作用的详细网络模型,用于识别关键基因和潜在的生物标志物;步骤4:转化异常数据并构建初步知识图谱;针对DNA和RNA的多类型异常,将每种异常数据转化为三元组事实格式;具体地,当样本T中的基因G出现T类型的异常时,构建三元组样本P,异常类型T,基因G;将上述三元组中的主体视为实体,将宾语看作是与主体有关的异常基因,并将主体和宾语之间的异常类型视为关系;收集所有的实体,作为图的节点,并将关系作为图的边,将这些节点和边连接形成一个图结构,即为初步的知识图谱;本步骤输出:一个完全覆盖来自DNA和RNA的所有异常的知识图谱,该图谱表示不同的异常数据关系,解决数据不兼容性问题;步骤5:纳入附加信息并完善知识图谱;将基因间的交互关系纳入知识图谱中,当基因G1与G2之间存在交互时,构建并加入三元组事实基因G1,交互I,基因G2;对于存在同义词关系的基因G1和G2,构建并加入三元组事实基因G1,同义词S,基因G2;添加肺癌的亚型信息,当肺癌样本P属于亚型S时,构建并加入三元组事实样本P,属于B,亚型S;对于已经验证的肺癌驱动基因G,构建并加入三元组事实基因G,是Is,致癌基因D;本步骤输出:一个完整且包含了多类型异常、基因交互、基因同义词、肺癌亚型和已知肺癌驱动基因信息的知识图谱;步骤6:肺癌基因组知识图谱致癌性表示;每个基因在映射的多维基因空间中都表示为一个多维向量;使用知识图谱嵌入将包含多种类型变异的知识图谱融合到综合基因空间中;将三元组的实体和关系的关系表示为低维表示上的翻译操作,从而获得系列向量;通过实体和关系的投影向量,为多类型突变知识图谱中的每个三元组计算动态映射的参数矩阵: 其中:vh和vt分别表示三元组中头和尾的向量表示,ωr、ωh和ωt分别表示关系、头和尾的参数向量,I表示单位矩阵;使用Adam优化器对恢复知识图谱中所有现有三元组的联合损失函数进行优化: 其中代表综合知识图谱中所有三元组的集合;h、r、t分别表示图谱中的三元组的头元素、关系元素、尾元素;步骤7:损失函数计算对致癌性预测;对待测基因计算恢复损失函数,得到这些基因与驱动实体在三元组中的损失得分Disrh,t;其中待测的三元组为待测基因Gtest,是Is,致癌基因D;损失得分DisIsGtest,D越小,待测基因Gtest是肺癌驱动基因的可能性越高。

全文数据:

权利要求:

百度查询: 广州医科大学 肺癌基因组多类型变异的知识图谱致癌性表示预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。