买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用_中国医科大学附属盛京医院_202111040701.4 

申请/专利权人:中国医科大学附属盛京医院

申请日:2021-09-07

公开(公告)日:2024-03-26

公开(公告)号:CN113744869B

主分类号:G16H50/20

分类号:G16H50/20;G16H50/70;G06F18/2431

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2021.12.21#实质审查的生效;2021.12.03#公开

摘要:本发明属于轻链型淀粉样变性早期筛查和人工智能技术领域,具体涉及一种基于机器学习结合临床常规化验和超声心动图建立早期筛查轻链型淀粉样变性的人工智能辅助系统的方法及其应用。本发明通过临床1064例轻链型淀粉样变性和非AL型淀粉样变性(心力衰竭、心肌病、肝脏疾病和肾脏疾病)的常规检验结果,利用RF、SVM、DNN和GBDT建立了AL型淀粉样变性的早期辅助筛查模型,预测可能性准确率可达90%以上。本发明提供的预警模型具有易于推广和使用方便的特点,大大提高基层医院对轻链型淀粉样变性的认知和患者的早期筛查,具有广阔的应用前景和深远的临床意义。

主权项:1.一种基于机器学习算法早期筛查轻链型淀粉样变性的方法,其特征在于,所述方法的步骤如下:步骤1:采集样本数据,根据使用目前的诊断标准和医学判断,收集相应训练特征;所述训练特征的10个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT-proBNP、白蛋白、碱性磷酸酶、室间隔、左室后壁和射血分数,或7个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT-proBNP、白蛋白和碱性磷酸酶;步骤2:数据处理:1)处理样本集中缺失的值:需要确定提取的原始数据是否包含空值,如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填充;假设缺失项为正常值,从而减少使用异常值可能造成的偏差;2)选择MissForest作为缺失值填补方法对数据进行进一步处理;步骤3:基于样本数据的训练特征,构建机器学习算法模型;所述机器学习算法模型包括以下一种或几种的组合:即随机森林、支持向量机、深度神经网络和梯度提升决策树;所述随机森林模型是一种以决策树为基础的集成学习算法,其构造过程如下:1)假设有N个样本,则有放回的随机选择n个样本;使用择好了的n个样本用来训练一个决策树,作为决策树根节点处的样本;2)当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件mM;然后从这m个属性中采用基尼系数来选择1个属性作为该节点的分裂属性;基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好;基尼系数的计算公式为:;其中是第i个节点上类别为k的训练实例占比;3)决策树形成过程中每个节点都要按照步骤2来分裂,一直到不能够再分裂为止;4)按照步骤1~3建立大量的决策树,这样就构成了随机森林了;所述支持向量机是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题;SVM想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面;任意超平面可以用下面这个线性方程来描述:;点到超平面的距离为:,其中;根据支持向量的定义可知,支持向量到超平面的距离为d,其他点到超平面的距离大于d,于是: ;就可以得到最大间隔超平面的上下两个超平面;所述深度神经网络是一种基本的深度学习模型,由输入层、输出层和隐层组成;每一层由许多神经元组成,其输出用作下一层神经元的输入;每个神经元的参数,即“权重”是随机生成的,并通过算法进行调整,以最大限度地提高预测性能;神经元权重更新规则:;其中是第i个输入神经元和第j个输出神经元的连接权重,是当前训练实例的第i个输入值,是当前训练实例的第j个输出神经元的输出,是当前训练实例的第j个输出神经元的目标输出,是学习率;对于DNN,该模型具有更多超过四个隐藏层似乎过于合适,两个隐藏层分层不合适;因此,有三个隐藏的网络构建了层,每层包含256个神经元并应用了ReLU激活函数;所述梯度提升决策树模型方法使用CART模型(分类和回归树)作为基本分类器;GBDT采用加性模型(即主函数的线性组合),不断减小残差;采用加性模型的聚合分类器如下:对于二分类问题,使用似然估计函数作为损失函数: 其中Fx表示Fx集合的加权和,计算实例i=1,2,3,......,m的梯度的负值;在迭代过程中,损耗函数残差或梯度的负极被拟合;下面的函数是迭代t中损失函数到实例i的梯度的负值;用xi,rti拟合一棵回归树作为第t棵回归树,其对应的叶节点Rijj为叶节点数;根据以下函数计算最佳拟合值,并确定每个实例的最小损失;学习权重按以下函数更新:迭代结束,得到如下函数作为最终的学习模型: ;为了保证模型的泛化能力,对负数据和正数据进行混合和洗牌,从而改变原来的顺序;利用随机抽取的方法得到训练集和测试集,保证了这两个数据集的独立性;在算法中,这两个数据集的数据体积比为4:1。

全文数据:

权利要求:

百度查询: 中国医科大学附属盛京医院 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。