买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向医疗数据的多因素相关性交互式分析方法_西安交通大学_202010125946.6 

申请/专利权人:西安交通大学

申请日:2020-02-27

公开(公告)日:2024-04-02

公开(公告)号:CN111243753B

主分类号:G16H50/70

分类号:G16H50/70;G06F18/2431;G06F18/2113;G06F16/215

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2020.06.30#实质审查的生效;2020.06.05#公开

摘要:本发明公开了一种面向医疗数据的多因素相关性交互式分析方法,包括以下步骤:将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;使用t‑SNE算法将获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;设定疾病表征指标;对选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;采用统计学度量指标对选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析。本发明能够交互式地对高维医疗数据进行分析,可视化展示影响疾病发展的关键因素。

主权项:1.一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,包括以下步骤:步骤1,将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;其中,处理包括标准化处理;步骤2,使用t-SNE算法将步骤1获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;步骤3,设定疾病表征指标;对步骤2中选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;步骤4,采用统计学度量指标对步骤3中选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析;其中,步骤1中,所述将采集的医疗数据进行处理的具体步骤包括:1.1,消除医疗数据中的无关特征和隐私数据;其中,无关特征包括:患者姓名、患者序号,隐私数据包括:患者身份证号、患者手机号;1.2,消除医疗数据中的缺失值和异常值;其中,缺失值包括:空值、null、“-”,异常值包括:违反医学知识的值、违反常识的值;1.3,消除医疗数据中完全重复的数据;1.4,将医疗数据中的数值数据进行标准化处理,包括:对于同一特征数据xi, 式中,X为某一数值特征的所有值的集合,xi表示X中的第i个元素,i=1,2,3,...n,n表示元素总数,minX表示集合X中的最小值,maxX表示集合X中的最大值;1.5,将医疗数据中的类别型数据进行编码,获得编码向量Y;其中,编码格式为: 其中,yk表示编码向量中的第k个值,k=1,2,3,...,m,m表示编码向量中的元素数目,j表示数据所属的类别编号;步骤1中,获得的每个患者的就诊序列T,表达式为:T={xa,yb,zc,...},式中,xa,yb,zc,a,b,c=1,2,3,...l,分别代表不同类型的医疗数据,属于同一个患者;l表示每一类医疗数据的元素数目;步骤2中,根据需要从特征群体中选择出待研究特征群体G,表达式为:G={T1,T2,...,Tp,…,Td},式中,Tp代表待研究特征群体中第p个患者的就诊序列,d=1,2,3,...,d,d表示待研究特征群体中患者数量;步骤3中具体包括:3.1,设定疾病表征指标时,通过交互式指定;3.2,对选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序时,将特征的方差值小于阈值特征移除,获得移除后的特征;将移除后的特征按照与疾病表征指标的相关性排序,确定对疾病表征最关键的k个特征,完成特征选择及特征排序;步骤3.2中,将剩余的特征按照与疾病表征指标的相关性排序,确定对疾病发展最为关键的k个特征的步骤具体包括:3.2.1,构建以决策树为基学习器的分类器,记为F;3.2.2,将移除后特征的数据送入分类器F中,预测疾病表征指标P,得到基准预测结果O,表达式为:O=Ft1,t2,...,tq...,te,式中,tq,q=1,2,...,e表示包含第q个特征的数据,e表示特征的数量;3.2.3,将去除第r个特征后的数据送入分类器中进行预测,得到预测结果Or,表达式为:Oi=Ft1,t2,...tr-1,tr+1,...,te;3.2.4,计算预测结果Or与基准预测结果O的差值,作为第r个特征对疾病发展的影响程度ΔOr,表达式为:ΔOr=|Or-O|,式中,ΔOr,r=1,2,3,...,e表示第r个特征对疾病发展的影响程度;其中,ΔOr越大,代表第r个特征对于疾病的发展影响越大,越关键;3.2.5,重复步骤3.2.4和3.2.5,直到全部特征都得到对疾病发展的影响程度ΔO;3.2.6,按照关键性度量指标大小对特征进行排序,获得前s个最关键的特征,表达式为:{t1,t2,...ts}=sortΔO1,ΔO2,...,ΔOn,式中,sort表示排序函数。

全文数据:

权利要求:

百度查询: 西安交通大学 一种面向医疗数据的多因素相关性交互式分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。