【发明公布】基于中文电子病历的主题分割方法_北京工业大学_202410301455.0

导航：龙图腾网> 最新专利技术> 基于中文电子病历的主题分割方法_北京工业大学_202410301455.0

申请/专利权人：北京工业大学

申请日：2024-03-16

公开（公告）日：2024-05-14

公开（公告）号：CN118035386A

主分类号：G06F16/33

分类号：G06F16/33;G06F16/34;G06F40/289;G06F40/30;G16H10/60

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.31#实质审查的生效;2024.05.14#公开

摘要：本发明提出了一种基于中文电子病历的主题分割方法。预定义好中文电子病历的主题类别，根据句子的主题类别，构建中文电子病历的主题分割数据集。利用结巴分词模型和Word2Vec预训练模型预处理。利用双向长短记忆网络和注意力机制构建句子编码器，对文本中的每一个句子进行特征编码。利用双向长短记忆网络和卷积神经网络来捕获上下文特征和局部特征，通过门控机制动态融合两种特征作为句子序列的全局语义特征。利用联合策略构建基于上述网络的一个主任务主题分割和一个辅助任务主题分类。利用主题分类任务辅助主题分割任务，来提高模型的主题分割的准确性。该方法有效实现中文电子病历的主题分割，利于后续临床诊疗知识图谱的构建。

主权项：1.一种基于中文电子病历的主题分割方法，其特征在于，包括如下步骤：步骤1：获取中文电子病历相关数据，分析并构建数据集；步骤1.1：获取中文电子病历数据在此步骤中，从医院获取原始的中文电子病历记录数据，将其中现病史部分作为要进行主题分割的中文电子病历文本；对这些数据进行规范化处理，其中包括去除多余的空格字符，字体格式统一；步骤1.2：分析病历文本的主题类别在此步骤中，对病历文本中的主题类别进行预定义；主主题标注类别设计为6个类别，其中包括：症状Symptom、辅助检查Auxiliaryinspection、实验检查Experimentalinspection、诊断Diagnosis、治疗Treatment、其他Others；之后，将上述括号中的英文的首个单词的首字母作为主题类别的标签；步骤1.3：数据标注在此步骤中，采用上述定义好的主题类别对病历文本进行标注；由于电子病历记录的不规范，将中文符号下的逗号和句号作为一句话的开始或结束；因此，标注工作是在每句话后面给定句子的主题类别；步骤2：主题分割模型输入文本的预处理过程步骤2.1：使用结巴分词模型进行分词在此步骤中，首先对一段中文电子病历文本进行分句，由于文中记录不规范的问题，分句的标准也是中文状态下的逗号和句号；将文本分成若干个句子后，再通过结巴分词模型中的精确模式对文本进行分词；步骤2.2：使用Word2Vec预训练模型生成词向量在此步骤中，利用搜狗数据集训练的300维字词向量Word2Vec预训练模型将文本中的每一个词汇转换成300维的词向量；假设病历文本的输入序列为D＝{S1,S2,...,Sk}，Si为输入序列中第i个句子；并假设每个句子Si＝{w1,w2,...,wt}，wj为句子中第j个词汇；经过Word2Vec预训练模型后，生成词向量表示的句子为si＝{x1,x2,...,xt}；步骤3：使用句子编码器生成病历文本中的句子特征向量；在此步骤中，编码器的输入是一个List数据类型，每一个元素都是一份病历文本；List的数据长度为8，代表着模型中设置的batch_size为8，表示一次输入8份电子病历；List中每个元素的数据类型也是List，代表着1份电子病历中的句子序列，内层List中的每一个元素是一个句子的Tensorseq_length,embed_dim矩阵表示；seq_length表示句子的长度，embed_dim的大小为句子中词向量的维度，这里词向量的维度为300维；句子编码器中利用双向长短记忆网络和注意力机制来编码每一个句子；在每个batch数据的句子编码过程中，max_length变量负责记录每批次数据中最长的句子数目，对不足max_length长度的句子需要进行padding操作；句子编码器模块中的BiLSTM所定义的hidden_size为该隐藏层的大小，表示每个元素即词汇的特征数量，其数值定义为256；步骤4：使用门控机制动态融合的句子序列的上下文特征和局部特征；在此步骤中，采用BiLSTM对句子序列的上下文特征进行提取，采用CNN对句子序列的局部特征进行提取；通过门控机制动态的为二者分配权重，将融合上下文特征和局部特征的句子序列特征向量用于主题分割；门控机制的具体实现是利用拼接矩阵的方式，矩阵的形状是BiLSTM的输出和CNN的输出拼接来的；利用sigmoid激活函数来获取门控信号Gate；然后，BiLSTM的输出和CNN的输出分别与门控信息Gate和1-Gate进行Hadamard积，将两种特征融合作为步骤4的输出特征向量；句子序列的上下文特征提取模块采用的BiLSTM所定义的hidden_size为该隐藏层的大小，表示每个元素即句子的特征数量，其数值定义为128；局部特征提取模块中CNN定义的卷积核的大小为3；步骤5：利用联合学习策略，辅助完成主题分割任务；在此步骤中，利用联合学习策略，将主题分割任务当作一个主任务即主题分割和一个辅助任务即主题分类，共同学习，通过反向传播更新模型参数训练模型；具体流程是：将步骤4的输出结果分别输入到两个线形层中，对最后一个维度进行特征变换；一个线形层的参数为hidden_dim,topic_classes，另一个线性层的参数为hidden_dim，seq_classes；其中，hidden_dim的大小是步骤4中BiLSTM和CNN的输出在最后一个维度拼接后的数值1024；topic_classes作为主任务的输出尺寸，根据预定义好的主题类别，其数值定义为6；seq_classes作为辅助任务的输出尺寸，判断上下文句子是否连贯，其数值定义为2；主任务的损失函数为焦点损失函数，辅助任务的损失函数为二元交叉熵损失函数，用于衡量模型预测的概率分布与真实标签之间的差异；将两种损失函数加权相加作为最后的总损失函数；其中主题类别与其对应权重为：“症状”权重为1，“治疗”权重为1，“辅助检查”权重为2，：“实验检查”权重为2，“诊断”权重为2，“其他”权重为1；两种损失函数与其权重为：“焦点损失函数”权重为0.8，“二元交叉熵损失函数”权重为0.2。

全文数据：

权利要求：

百度查询：北京工业大学基于中文电子病历的主题分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：图像解码设备、图像解码方法和存储介质_佳能株式会社_202410260046.0

下一篇：压驱助剂自适应调节伴注系统_中国石油化工股份有限公司_202211549249.9

相关技术

图像解码设备、图像解码方法和存储介质_佳能株式会社_202410260046.0

压驱助剂自适应调节伴注系统_中国石油化工股份有限公司_202211549249.9

一种基于RTP的数据传输方法、装置、设备和介质_深圳智慧林网络科技有限公司_202210520562.3

数据传输方法、设备及存储介质_中兴通讯股份有限公司_202211551808.X

一种高度可调的船舶高度检测系统_大连海事大学_202410262681.2

一种配网运行缺失数据填充方法、装置、设备及存储介质_南方电网科学研究院有限责任公司_202410320601.4

一种制动蠕动噪音的前期识别方法_一汽-大众汽车有限公司_202211556421.3

一种可持续心电血氧血压监测的便携设备_河北汇丰医药有限公司_202410133584.3

一种能源站调价方法、装置、计算机设备和可读存储介质_山东能链控股有限公司_202410149603.1

一种建设工程施工噪声数据异常监测方法及系统_天津大学_202410148926.9

GRP75抑制剂作为用于制备减缓或治疗肿瘤恶病质的药物的用途_北京肿瘤医院(北京大学肿瘤医院)_202211547930.X

5G小区业务信道干扰分析方法、装置及可读存储介质_中国联合网络通信集团有限公司_202410263226.4

电子相关技术

电子喉镜_上海安清医疗器械有限公司_201510900133.9

电子装置_三星电子株式会社_201910261486.7

电子装置_日月光半导体制造股份有限公司_202310487464.9

电子装置_友达光电股份有限公司_202410394391.3

电子烟_喜层层(深圳)科技有限公司_202211548184.6

电子笔_株式会社和冠_202311403784.8

多层电子组件和制造多层电子组件的方法_三星电机株式会社_202311653055.8

一种基于电子纸的电子吊牌_江西兴泰科技股份有限公司_202322490541.4

电子器件保护方法和电子设备_维沃移动通信有限公司_202210515746.0

电子设备和电子系统_三星电子株式会社_202010195256.8

主题相关技术

基于对比预训练的多主题图像美学评估方法、装置及设备_北京邮电大学_202410238729.6

一种基于细微特征的核心主题事件监测方法及设备_中国电子科技集团公司第十研究所_202410296609.1

基于多模态种子神经主题模型的短视频情感倾向检测方法_合肥工业大学_202410280254.7

一种论文主题无关引用检查方法及装置_北京邮电大学_202410240393.7

一种主题切换的方法、装置、设备及存储介质_北京希望在线线上学科培训学校_202410398265.5

基于语义嵌入聚类正则化和多样性一致损失的主题建模方法_重庆邮电大学_202410254291.0

主题库实现方法和装置_北京沃东天骏信息技术有限公司_202211509435.X

汽车桌面主题的确定方法及装置_重庆赛力斯凤凰智创科技有限公司_202410356396.7

基于多模态主题补充的跨模态检索方法、装置及系统_云知声智能科技股份有限公司_202011504383.8

一种基于图的主题事件检测方法、装置及设备_中科紫东信息技术(北京)有限公司_202410218702.0

分割相关技术

对象分割方法、对象分割模型的训练方法和装置_北京金山云网络技术有限公司_202110611351.6

甲状腺结节分割模型的训练方法、结节分割方法和装置_中国矿业大学_202410385640.2

一种肉类分割用多功能单层分割输送机_宁夏绿牛生态产业开发有限公司_202323375695.5

基于语义分割的车位线检测方法及设备_华人运通(上海)自动驾驶科技有限公司_202211519247.5

视觉动态分割定位方法、装置及介质_河南中烟工业有限责任公司_202410331287.X

一种具有防护结构的分割机_锦州九丰食品有限公司_202322888914.3

基于细化边界信息的脑肿瘤图像分割方法_重庆邮电大学_202410342045.0

一种半监督MRI图像分割方法_烟台大学_202410449515.3

一种肉品加工用分割装置_洪湖市汇裕食品有限公司_202323002033.3

基于稀疏注意力机制的水体分割方法_石河子大学_202410478465.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】基于中文电子病历的主题分割方法_北京工业大学_202410301455.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务