买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多任务和多模态的癌症生存分析系统_中山依数科技有限公司_202011576778.9 

申请/专利权人:中山依数科技有限公司

申请日:2020-12-28

公开(公告)日:2024-04-12

公开(公告)号:CN112687327B

主分类号:G16B20/00

分类号:G16B20/00;G16B40/00;G16H50/70;G06N3/084;G06N3/044;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.05.07#实质审查的生效;2021.04.20#公开

摘要:本发明公开了一种基于多任务和多模态的癌症生存分析系统,包括:数据导入模块,包括数据加载模块和数据预处理模块;系统训练模块,包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块;系统预测模块,依据癌症病人的多组学数据和病理图进行生存分析和分级。本发明将深度学习技术、多任务学习技术与多组学、病理图数据结合,即能捕获多模态数据间的互补特性,又能捕获多任务间的共享关联性,从而形成一种基于多任务和多模态的癌症生存分析系统,并提供自动化的生存分析和癌症分级结果。

主权项:1.一种基于多任务和多模态的癌症生存分析系统,其特征在于,包括:数据导入模块,用于加载多组学数据、病理图和临床数据,并对多组学数据、病理图和临床数据进行预处理,从而为后续系统训练模块和系统预测模块提供标准的输入;系统训练模块,利用ResNet网络模型对病理图进行表示学习,得到病理图的表征,利用稀疏图卷积神经网络对多组学数据进行表示学习,得到多组学数据的表征,利用全连接神经网络对病理图和多组学数据的表征进行融合,利用全连接神经网络对融合后的表征进行多任务预测,通过反向传播进行模型参数学习,并最终得到最优预测模型,该模型用于同时进行癌症生存分析和癌症分级;系统预测模块,基于系统训练模块训练出的最优预测模型,依据新的癌症病人的多组学数据和病理数据进行生存分析和癌症分级;所述系统训练模块包括表示学习模块、多组学与病理图融合模块、多任务预测模块和损失函数模块,其中:所述表示学习模块用于对每个样本的多组学数据和病理图进行表示学习,以提取多组学数据和病理图中的关键特征,降低多组学数据和病理图的维度,从而便于后续的融合,包括以下步骤:a、基于ResNet对r1×r2像素大小的病理图进行表示学习: 其中,ResNet·为ResNet152网络模型,所采用的ResNet152网络模型已在ImageNet数据集上进行预训练,XI为经过数据导入模块处理后的病理图,XI的每一行表示一个r1×r2像素大小的病理图,为病理图的表征,的特征维度都为p;b、基于稀疏图卷积神经网络对多组学数据进行表示学习: 其中,σ·为激活函数ReLU·=max0,·,max0,·表示取0和·中的较大值,XOi为经过数据导入模块处理后的组学i的数据,i=1,2,...,N,N为组学的数量,A为基因-基因相互作用网络的邻接矩阵,和为组学i表征中所需学习的参数,⊙为阿达玛乘积,为组学i的隐含表征,的特征维度与XOi相同,为组学i的表征,的特征维度为p,基于稀疏图卷积神经网络对多组学数据进行表示学习时能够引入外部知识库,即基因-基因相互作用网络,从而增强系统的表示学习的能力;所述多组学与病理图融合模块用于对多组学和病理图表征进行融合,包括以下步骤:a、多组学表征与病理图表征的拼接: 其中,F0为拼接后的融合表征,F0的特征维度为N+1×p,N为组学的数量,p为每个组学和病理图的表征的特征维度,为表示学习模块输出的病理图的表征,为表示学习模块输出的组学i的表征,i=1,2,...,N,cat·为拼接函数,按行对每个矩阵进行拼接;b、对拼接后的特征利用四层的全连接神经网络进行的深层的融合表征: 其中,和为所需学习的权重参数,和为所需要学习的偏置参数,F1、F2和F3为隐含表征,F1、F2和F3的特征维度分别为1024、512和256,F4为最终的融合表征,F4的特征维度为32,四层的全连接神经网络除能进行深层的融合表征外,也是多任务学习模型的共享结构,用于提取多任务相关联的共享信息;所述多任务预测模块用于对多组学和病理图的融合表征进行多任务预测,包括以下步骤:a、使用两层的前馈神经网络进行生存分析任务预测: 其中,为所需学习的权重参数,和为所需学习的偏置参数,Sigmoid·表示Sigmoid函数,S0为隐含表征,S0的特征维度为16,S1为所预测的生存风险值;b、使用两层的全连接神经网络进行癌症分级任务预测,癌症分级的标签取决于细胞在显微镜下的外观,低等级表示癌症的生长慢,高等级表示癌症的生长快: 其中,和为所需学习的权重参数,和为所需学习的偏置参数,LogSoftmax·为对数归一化指数函数,G0为隐含表征,G0的特征维度为16,G1为所预测的癌症等级;所述损失函数模块用于对表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数进行训练,包括以下步骤:a、设定多任务损失函数,生存分析的损失函数为Cox局部对数似然: 其中,lS为生存分析任务的损失函数,m是样本数量,ti是第i个样本的生存时间,Rti是时间ti前生存的样本的集合,δi表示样本是否发生删失,删失时为0,不删失时为1,为第i个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值,为第j个样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的生存风险值;分级任务的损失函数为负对数似然:lG=-logG1;其中,lG为分级任务的损失函数,G1为样本通过表示学习模块、多组学与病理图融合模块和多任务预测模块后生成的分级结果,最终的损失函数为最小化损失函数l=lS+lG;b、通过最小化损失函数l和优化器Adam训练表示学习模块、多组学与病理图融合模块和多任务预测模块中的参数,经过d次迭代后获得最优预测模型。

全文数据:

权利要求:

百度查询: 中山依数科技有限公司 一种基于多任务和多模态的癌症生存分析系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。