买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种中药和症状关系的数据挖掘方法_中国传媒大学_202010708196.5 

申请/专利权人:中国传媒大学

申请日:2020-07-21

公开(公告)日:2024-04-19

公开(公告)号:CN111951971B

主分类号:G16H50/70

分类号:G16H50/70;G16H20/90

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2020.12.04#实质审查的生效;2020.11.17#公开

摘要:本发明公开了一种中药和症状关系的数据挖掘方法,为挖掘中药对象与症状对象的准确对应关系,本发明先采用熵聚类算法从中药处方数据中挖掘常用方药配伍,然后以方药配伍为整体,依据共现信息寻找可能与方药配伍存在映射关系的候选症状对象。接着,为了从大量不确定的方药配伍与症状对象的映射关系中过滤不准确的结果,采用关联度系数分析法和共现频次分析法确定中药与症状的关联强度,筛除关联强度弱的候选症状对象。本发明挖掘方药配伍采用的改进熵聚类算法,动态选择中药向量的亲密变量个数,只考虑与目标中药的关联度系数非负的中药;改进后方法可以过滤掉临床上实际并未同时使用的中药药对,使挖掘结果更准确且更具实际意义。

主权项:1.一种中药和症状关系的数据挖掘方法,其特征在于,该方法包括如下步骤,步骤1、对中医诊疗老年病数据集进行相关预处理,输入数据为文本形式的医案数据,输出数据为向量形式:步骤2、采用熵聚类算法挖掘方药配伍,输入是经过数据预处理后得到的所有中药向量,输出是方药配伍组合;具体步骤如下:步骤3、依据中医学上用一组方药配伍共同发挥功效治疗症状的中医常识为支撑,在得到方药配伍结果的基础上,探索方药配伍与症状的对应关系,如果某组方药配伍与某个症状具有映射关系,则所有组成方药配伍的中药与此症状具有映射关系;中药和症状关系的计算机数据挖掘方法的实施过程包括三大部分;第一部分是数据预处理模块,实现了由病例文本数据到结构化向量数据的转换,得到用于数据挖掘的实验数据集;第二部分以中药向量作为输入,采用熵聚类算法得到方药配伍结果;第三部分是中药-症状映射关系挖掘模块,设计基于关联强度规则过滤症状的方法,以方药配伍、中药向量、症状向量为输入,经过多步操作得到中药-症状的映射关系;具体实施步骤叙述如下:步骤1的实施过程如下:步骤1.1、将文本解析成字符串,并进行字符串匹配、字符串分割操作,从中提取出症状词、中药词;步骤1.2、对不规范的症状词、中药词进行数据清洗;针对一义多词、多词一义、复合表述的情况,基于设计聚合、拆分规则,纠正错误用语,保证症状词、中药词的唯一性和准确性;步骤1.3、进行数据变换,根据症状词、中药词在就诊记录中存在与否,映射到对应的二进制值1、0;存在用1表示,不存在用0表示;步骤1.4、进行降维,统计各个症状词、中药词出现的频次,将频次不足样本量十分之一的词删除;步骤2的实施过程如下:步骤2.1、输入N个中药向量,计算中药向量两两之间的关联度系数;关联度系数值为正表示两个中药向量是正相关的,有组成方药配伍的可能;反之,则为负相关,两个中药向量不曾出现在一剂处方中,不适合组成方药配伍;步骤2.2、规定与给定中药向量关联度系数大小排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量;为每个中药向量按照此规定寻找亲密变量;M的实际意义表示可组成方药配伍的中药个数,由于一剂处方至少与两个以上的症状相对应,M的取处方平均中药味数的二分之一较为合适;步骤2.3、将两个互为亲密变量的中药向量组成二元组方药配伍;接着搜索下一个可能聚类的中药向量,如果该中药向量能够与二元组方药配伍中的任意一个中药互为亲密变量,则这三个中药向量聚为一类,形成三元组方药配伍;以此类推,直到饱和,即不能再往里添加任何一个中药向量才结束迭代过程;经过方药配伍生成过程,可得到二元组、三元组、四元组、五元组方药配伍;动态地选择中药的亲密变量个数,只考虑与目标中药的关联度系数非负的中药,改进后方法过滤掉临床上实际并未同时使用的中药药对;算法中关联度系数的公式如下: 其中HXi表示中药向量Xi的自信息熵,pi,j表示两种中药在同一剂处方中同时出现的频率;两味中药共现频率大于0时,计算关联度系数,结果是一个大于0的数;反之,中药之间共现频率等于0时,计算关联度系数,结果是一个小于0的数;步骤3的实施过程如下:步骤3.1、依据共现信息寻找可能与方药配伍存在映射关系的所有候选症状对象,只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系;步骤3.2、为了在暂定症状中筛选与方药配伍真正存在映射关系的症状,设计了基于关联强度规则过滤症状的方法:首先对于每一个症状向量,根据关联度系数的公式计算其与各个中药向量的关联度系数,并降序排列;这样各个中药向量有一个关于该症状向量的关联强度排名r1hs;对于每一个中药向量,计算其与各个症状向量的关联度系数,各个症状向量也有一个关于该中药向量的关联强度排名r1sh;任意一组症状向量与中药向量的关联程度可由r1hs+r1sh的大小决定;根据r1hs+r1sh重新调整基于关联度系数各症状向量与中药向量的关联强度排序rank1;然后,通过统计中药与症状的共现频次,获得基于共现频次各症状向量与中药向量的关联强度排序rank2;那么,基于关联强度规则过滤候选症状的思路为:如果方药配伍中的所有中药Hi均满足与某个候选症状的关联强度排序rank1或rank2不大于K,即候选症状满足式子2:{rank1ofHi≤KORrank2ofHi≤K,Hi∈方药配伍}2则保留该症状,否则剔除,K取值为处方平均中药味数的二分之一;经过过滤步骤,最终获得符合临床认识的症状与中药的映射关系。

全文数据:

权利要求:

百度查询: 中国传媒大学 一种中药和症状关系的数据挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。