首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于中文电子病历的主题分割方法_北京工业大学_202410301455.0 

申请/专利权人:北京工业大学

申请日:2024-03-16

公开(公告)日:2024-05-14

公开(公告)号:CN118035386A

主分类号:G06F16/33

分类号:G06F16/33;G06F16/34;G06F40/289;G06F40/30;G16H10/60

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.31#实质审查的生效;2024.05.14#公开

摘要:本发明提出了一种基于中文电子病历的主题分割方法。预定义好中文电子病历的主题类别,根据句子的主题类别,构建中文电子病历的主题分割数据集。利用结巴分词模型和Word2Vec预训练模型预处理。利用双向长短记忆网络和注意力机制构建句子编码器,对文本中的每一个句子进行特征编码。利用双向长短记忆网络和卷积神经网络来捕获上下文特征和局部特征,通过门控机制动态融合两种特征作为句子序列的全局语义特征。利用联合策略构建基于上述网络的一个主任务主题分割和一个辅助任务主题分类。利用主题分类任务辅助主题分割任务,来提高模型的主题分割的准确性。该方法有效实现中文电子病历的主题分割,利于后续临床诊疗知识图谱的构建。

主权项:1.一种基于中文电子病历的主题分割方法,其特征在于,包括如下步骤:步骤1:获取中文电子病历相关数据,分析并构建数据集;步骤1.1:获取中文电子病历数据在此步骤中,从医院获取原始的中文电子病历记录数据,将其中现病史部分作为要进行主题分割的中文电子病历文本;对这些数据进行规范化处理,其中包括去除多余的空格字符,字体格式统一;步骤1.2:分析病历文本的主题类别在此步骤中,对病历文本中的主题类别进行预定义;主主题标注类别设计为6个类别,其中包括:症状Symptom、辅助检查Auxiliaryinspection、实验检查Experimentalinspection、诊断Diagnosis、治疗Treatment、其他Others;之后,将上述括号中的英文的首个单词的首字母作为主题类别的标签;步骤1.3:数据标注在此步骤中,采用上述定义好的主题类别对病历文本进行标注;由于电子病历记录的不规范,将中文符号下的逗号和句号作为一句话的开始或结束;因此,标注工作是在每句话后面给定句子的主题类别;步骤2:主题分割模型输入文本的预处理过程步骤2.1:使用结巴分词模型进行分词在此步骤中,首先对一段中文电子病历文本进行分句,由于文中记录不规范的问题,分句的标准也是中文状态下的逗号和句号;将文本分成若干个句子后,再通过结巴分词模型中的精确模式对文本进行分词;步骤2.2:使用Word2Vec预训练模型生成词向量在此步骤中,利用搜狗数据集训练的300维字词向量Word2Vec预训练模型将文本中的每一个词汇转换成300维的词向量;假设病历文本的输入序列为D={S1,S2,...,Sk},Si为输入序列中第i个句子;并假设每个句子Si={w1,w2,...,wt},wj为句子中第j个词汇;经过Word2Vec预训练模型后,生成词向量表示的句子为si={x1,x2,...,xt};步骤3:使用句子编码器生成病历文本中的句子特征向量;在此步骤中,编码器的输入是一个List数据类型,每一个元素都是一份病历文本;List的数据长度为8,代表着模型中设置的batch_size为8,表示一次输入8份电子病历;List中每个元素的数据类型也是List,代表着1份电子病历中的句子序列,内层List中的每一个元素是一个句子的Tensorseq_length,embed_dim矩阵表示;seq_length表示句子的长度,embed_dim的大小为句子中词向量的维度,这里词向量的维度为300维;句子编码器中利用双向长短记忆网络和注意力机制来编码每一个句子;在每个batch数据的句子编码过程中,max_length变量负责记录每批次数据中最长的句子数目,对不足max_length长度的句子需要进行padding操作;句子编码器模块中的BiLSTM所定义的hidden_size为该隐藏层的大小,表示每个元素即词汇的特征数量,其数值定义为256;步骤4:使用门控机制动态融合的句子序列的上下文特征和局部特征;在此步骤中,采用BiLSTM对句子序列的上下文特征进行提取,采用CNN对句子序列的局部特征进行提取;通过门控机制动态的为二者分配权重,将融合上下文特征和局部特征的句子序列特征向量用于主题分割;门控机制的具体实现是利用拼接矩阵的方式,矩阵的形状是BiLSTM的输出和CNN的输出拼接来的;利用sigmoid激活函数来获取门控信号Gate;然后,BiLSTM的输出和CNN的输出分别与门控信息Gate和1-Gate进行Hadamard积,将两种特征融合作为步骤4的输出特征向量;句子序列的上下文特征提取模块采用的BiLSTM所定义的hidden_size为该隐藏层的大小,表示每个元素即句子的特征数量,其数值定义为128;局部特征提取模块中CNN定义的卷积核的大小为3;步骤5:利用联合学习策略,辅助完成主题分割任务;在此步骤中,利用联合学习策略,将主题分割任务当作一个主任务即主题分割和一个辅助任务即主题分类,共同学习,通过反向传播更新模型参数训练模型;具体流程是:将步骤4的输出结果分别输入到两个线形层中,对最后一个维度进行特征变换;一个线形层的参数为hidden_dim,topic_classes,另一个线性层的参数为hidden_dim,seq_classes;其中,hidden_dim的大小是步骤4中BiLSTM和CNN的输出在最后一个维度拼接后的数值1024;topic_classes作为主任务的输出尺寸,根据预定义好的主题类别,其数值定义为6;seq_classes作为辅助任务的输出尺寸,判断上下文句子是否连贯,其数值定义为2;主任务的损失函数为焦点损失函数,辅助任务的损失函数为二元交叉熵损失函数,用于衡量模型预测的概率分布与真实标签之间的差异;将两种损失函数加权相加作为最后的总损失函数;其中主题类别与其对应权重为:“症状”权重为1,“治疗”权重为1,“辅助检查”权重为2,:“实验检查”权重为2,“诊断”权重为2,“其他”权重为1;两种损失函数与其权重为:“焦点损失函数”权重为0.8,“二元交叉熵损失函数”权重为0.2。

全文数据:

权利要求:

百度查询: 北京工业大学 基于中文电子病历的主题分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。