【发明授权】多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

导航：龙图腾网> 最新专利技术> 多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

申请/专利权人：电子科技大学

申请日：2022-06-06

公开（公告）日：2024-04-16

公开（公告）号：CN115019906B

主分类号：G16C20/70

分类号：G16C20/70;G16C20/50;G06N3/047;G06N3/084;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2022.09.23#实质审查的生效;2022.09.06#公开

摘要：本发明公开了一种多任务序列标注的药物实体和相互作用联合抽取方法，包括以下步骤：S1、数据预处理，包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取；S2、药物命名实体识别；S3、药物相互作用抽取；S4、模型训练与损失函数。本发明将药物实体识别和相互作用抽取问题转化为一种两阶段序列标注任务，合理利用两个任务之间的相互联系和数据集已有的先验知识，将类别关键词的先验知识融入药物相互作用的抽取任务中，从大量的生物医学文献中快速高效地抽取药物实体和相互作用，是一种简单、通用、高效的标注模式。

主权项：1.多任务序列标注的药物实体和相互作用联合抽取方法，其特征在于，包括以下步骤：S1、数据预处理，包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取；具体实现方法为：S11、通用数据预处理，所用数据来自DDIExtraction2013挑战数据集，包括以下子步骤：S111、删除仅包含一个及以下药物实体的文本；S112、将药物相互作用描述文本全部转换为小写，同时将所有标点符号和非英文字符去除；S113、将药物相互作用描述文本中的所有数字全部用单词“num”替换；S114、设定最大句子长度为256，如果句子不够最大长度，用字符“0”填充；如果句子超过最大长度，则对超出部分进行截断处理；S12、药物实体识别序列标注数据集构建：解析DDIExtraction2013挑战数据集的xml文件，结合BIO标注模式和药物类别标签生成药物实体的最终标签，构建一个序列标注数据集用于药物实体识别；具体方法为：采用BIO标注模式对数据样本进行标注，实体词是指一个或多个英文单词组成的药物实体名称；将非实体词用O标注，实体词第一个单词用B表述，后面的单词用I标注；同时引入四类药物类别标签：drug、group、drug_n和brand，将药物类别标签拼接在B、I后面形成最终标签；S13、药物相互作用抽取序列标注数据集构建：在DDIExtraction2013挑战数据集中，药物相互作用分为五类，分别为effect、mechanism、advice、int和false；通过解析原数据集xml文件，获得每一种药物与其他药物实体的相互作用；结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签，构造药物相互作用抽取序列标注数据集；具体方法为：基于BIO标注模式，指定一药物实体为药物主体，使用“B-S”或“I-S”标签对药物主体进行标注，其他药物实体则根据该实体与药物主体的相互作用进行标注；一句输入文本若包含n个药物实体，则遍历n个实体，依次作为药物主体，生成n条序列标注文本数据；对每一条序列标注文本数据，将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对，抽取出以该药物为主体的所有相互作用三元组，获得输入文本对应的所有序列标注文本抽取到的相互作用三元组，即是输入文本中包含的所有的药物相互作用三元组；S14、构造类别先验的关键词向量词典，详细步骤如下：S141、对S11预处理后的药物相互作用描述文本再进行以下处理：对于句中的某一对药物，使用类别标签将句子文本主体进行标记；将药物相互作用对应的两个药物实体文本，分别替换为“相互作用类别_a”和“相互作用类别_b”；将无关药物实体名称替换为“DRUG”；S142、将S141处理好的相互作用描述文本X＝{x1,x2,...,xn}馈送至BioBert预训练模型，获得该文本的编码向量V＝{v1,v2,...,vn}，xi表示文本中的第i个单词，vi表示第i个词对应的编码向量，n表示文本长度：V＝BioBertX；S143、对文本的嵌入单词向量求平均，得到融合整个上下文语义信息的句子嵌入向量v： S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度：其中，i表示文本中单词序号，取值1～n；将每个单词向量与句子向量的相似性得分Simi降序排列；根据其他语料中的高频、低价值的停用词构建停用词表，排除停用词表中的所有单词，再选出相似性得分最高的三个单词作为该句的候选关键词；S145、使用基于类别修正的TD-IDF算法完成关键词统计：使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计，公式如下：TF-IDFjwi＝TFjwi×IDFjwiTFjwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率，定义如下：其中countwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数，∑countw表示药物相互作用类别为j的文本中总的候选关键词的数目；IDFjwi是基于类别修正的逆文本频率指数，其定义如下：其中Pwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率，P′wi表示单词wi在除j以外的药物相互作用类别中出现的概率之和；在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后，选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集；S146、获取关键词向量：将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类，得到类别相关的所有语句，并使用word2vec模型分别在四个语料库上进行预训练，得到4个类别相关的静态词向量表；按照步骤S145得到的每一药物相互作用类别的关键词集，分别从对应的类别相关的静态词向量表中，按照关键词集检索获得每一个关键词的低维嵌入向量，称为关键词向量k；S2、药物命名实体识别；具体实现方法为：S21、将步骤S12获得的数据集中的每一句输入文本的最前面插入一个特殊符号[CLS]，该符号对应的最终隐向量捕获了全句的上下文语义信息；根据步骤S142，同样以BioBert预训练模型作为文本的基础编码器，获取文本单词特征和上下文特征，得到文本编码向量H＝{h0,h1,...,hn}，其中h0便是[CLS]符号对应的隐向量，即上下文向量；S22、将步骤S21得到的文本编码向量输入到线性层进行线性转化，得到得分向量H′＝{h′0,h′1,...,h′n}，其表示如下：H′＝WH+b其中W和b分别是线性层的权重和偏置；S23、将步骤S22得到的得分向量H′输入至softmax层完成归一化：其中i＝1,...,n，h′i表示输入文本中第i个单词对应的得分向量，表示该单词属于第j个药物实体类别标签的概率；S3、药物相互作用抽取；具体实现方法为：S31、根据步骤S23得到每一个单词对应的药物实体类别标签，将概率最大的实体类别标签作为该单词的实体类别，得到输入文本中的药物实体集合；S32、遍历步骤S31得到的药物实体集合，依次从中选定一个药物实体作为药物主实体s；复用步骤S21得到的文本编码向量，从中获得上下文向量h0、药物主实体的编码向量hs，其中药物主实体若由C个token组成，则对这C个token对应的编码向量求平均得到hs,： S33、根据步骤S145获得的类别关键词集，检索输入文本中包含的类别关键词，将步骤S146获得的句中每一个类别关键词向量k计算其与句中每一个词向量hi的相似度得分：Si＝cosk,hi对得到的关键词相似度得分进行归一化，得到第i个词的注意力权重：计算所有项的注意力权重，将权重向量与词向量相乘，得到嵌入了关键词k与其他词的共现信息的向量，即：若输入文本中检索出了a个关键词，分别对这a个关键词进行上述计算，得到a个注入了不同关键词信息的向量，将这些向量拼接，馈入一个最大池层提取最重要的关键词信息并降维，得到关键词向量表示如下： S34、对于句中的第i个单词，从步骤S21得到的文本编码向量中获取该单词对应的编码向量hi，作为药物客实体向量；将上下文向量h0、主实体向量hs、客实体向量hi、关键词向量拼接，作为该单词与药物主实体的关系向量表示如下： S35、根据步骤S34获得输入文本中每一个单词与药物主实体的关系向量Hr＝{hr1,…,hrn}，将关系向量Hr输入到线性层进行线性转化，得到关系得分向量H'r＝{h'r1,…,h'rn}，表示如下：H′r＝WrHr+br其中Wr和br分别是线性层的权重和偏置；S36、将步骤S35得到的关系得分向量输入至softmax层完成归一化：其中h′ri表示输入文本中第i个单词跟药物主实体之间的关系得分向量，即表示该单词属于第j个药物相互作用类别标签的概率；将概率最高的作为该单词的类别标签，进一步得到整个输入文本的药物相互作用类别标签序列；S37、根据步骤S36获得的药物相互作用类别标签序列，从中抽取出药物相互作用三元组；具体抽取匹配流程如下：选定标签序列中的药物主实体为药物相互作用三元组的Subject；以药物主实体的句中位置出发，向后搜索，找到对应的药物相互作用类别标签后缀为“effect”、“mechanism”、“advice”、“int”或“false”的单词作为药物相互作用三元组的Object，其后缀对应的关系即是药物相互作用三元组的relation，完成匹配抽取出该三元组；搜索至句尾，完成匹配；S4、模型训练与损失函数。

全文数据：

权利要求：

百度查询：电子科技大学多任务序列标注的药物实体和相互作用联合抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

下一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

相关技术

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

再生废液处理系统_山东荣信集团有限公司_202322260404.1

电子设备_深圳市嘉晋实业有限公司_202322601396.2

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

实体相关技术

基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

边缘物联代理实体的配网方法、系统及设备_成都汉度科技有限公司_202311205649.2

实体消歧方法、装置、电子设备及计算机可读存储介质_广州视源电子科技股份有限公司_202011280340.6

线状基础地理实体与专题地理实体边界融合方法及系统_湖南省第一测绘院_202410291864.7

同义实体对的确定方法及装置_阿里巴巴集团控股有限公司_201910299911.1

与IOT设备构建增强现实体验_斯纳普公司_202280058737.1

一种实体关系的抽取方法和装置_北京捷通华声科技股份有限公司_202010519899.3

一种基于文本图像的多模态命名实体识别方法_福建理工大学_202410080441.0

多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

相互作用相关技术

一种标牌制作用模切装置_枣阳市德宇印务有限公司_202321962440.6

一种酱料制作用灌装装置_成都市海光食品有限公司_202322766961.0

一种液驱循环液封压缩机单作用气缸_烟台东德氢能技术有限公司_202322356042.6

模拟风荷载作用下对混凝土进行性能测试的试验装置_中国铁道科学研究院集团有限公司铁道建筑研究所_202322293319.5

一种基于电磁铁控制作用的切削加工急停装置_同济大学_202210960006.8

使用双作用运动学安装件进行材料传递的技术_康宁股份有限公司_202311356752.7

一种暴雨作用下的边坡模拟方法_同济大学_201911416498.9

一种带冷却的液驱循环液封压缩机单作用气缸_烟台东德氢能技术有限公司_202322356035.6

强涌潮河段洪潮共同作用下古海塘堤脚冲刷高程预测方法_浙江省水利河口研究院(浙江省海洋规划设计研究院)_202410142870.6

一种带冷却的液驱循环液封压缩机双作用气缸_烟台菱辰科技有限公司_202322356023.3

药物相关技术

一种药物组合物及其制备方法_南京科默生物医药有限公司_202110634909.2

基于纳米药物载体的载药机构_湖北第二师范学院_202321540529.3

用于治理甲鱼养殖场的药物喷洒设备_湖北富渔生态农业科技发展有限公司_202322463823.5

一种用于药物检测用试剂盒_江苏医联生物科技有限公司_202322341319.8

一种便于稳定的尿液药物取样杯_尼沃诺斯(苏州)生物工程有限公司_202322580679.3

一种化学药物的提取装置_山东京新药业有限公司_202322535440.4

药物接头化合物的制备方法_思进公司_201880077478.0

作为药物递送系统的珠状非织造膜_赛比奥泰克斯公司_201980050451.7

一种载物微球术前药物混合装置_海钠生物科技(深圳)有限公司_202322628105.9

一种负载熊果酸与黄芪甲苷IV的纳米药物_上海市中医医院_202211288012.X

龙图腾网&IPTOP

【发明授权】多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务