买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2 

申请/专利权人:电子科技大学

申请日:2022-06-06

公开(公告)日:2024-04-16

公开(公告)号:CN115019906B

主分类号:G16C20/70

分类号:G16C20/70;G16C20/50;G06N3/047;G06N3/084;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.09.23#实质审查的生效;2022.09.06#公开

摘要:本发明公开了一种多任务序列标注的药物实体和相互作用联合抽取方法,包括以下步骤:S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;S2、药物命名实体识别;S3、药物相互作用抽取;S4、模型训练与损失函数。本发明将药物实体识别和相互作用抽取问题转化为一种两阶段序列标注任务,合理利用两个任务之间的相互联系和数据集已有的先验知识,将类别关键词的先验知识融入药物相互作用的抽取任务中,从大量的生物医学文献中快速高效地抽取药物实体和相互作用,是一种简单、通用、高效的标注模式。

主权项:1.多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,包括以下步骤:S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;具体实现方法为:S11、通用数据预处理,所用数据来自DDIExtraction2013挑战数据集,包括以下子步骤:S111、删除仅包含一个及以下药物实体的文本;S112、将药物相互作用描述文本全部转换为小写,同时将所有标点符号和非英文字符去除;S113、将药物相互作用描述文本中的所有数字全部用单词“num”替换;S114、设定最大句子长度为256,如果句子不够最大长度,用字符“0”填充;如果句子超过最大长度,则对超出部分进行截断处理;S12、药物实体识别序列标注数据集构建:解析DDIExtraction2013挑战数据集的xml文件,结合BIO标注模式和药物类别标签生成药物实体的最终标签,构建一个序列标注数据集用于药物实体识别;具体方法为:采用BIO标注模式对数据样本进行标注,实体词是指一个或多个英文单词组成的药物实体名称;将非实体词用O标注,实体词第一个单词用B表述,后面的单词用I标注;同时引入四类药物类别标签:drug、group、drug_n和brand,将药物类别标签拼接在B、I后面形成最终标签;S13、药物相互作用抽取序列标注数据集构建:在DDIExtraction2013挑战数据集中,药物相互作用分为五类,分别为effect、mechanism、advice、int和false;通过解析原数据集xml文件,获得每一种药物与其他药物实体的相互作用;结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签,构造药物相互作用抽取序列标注数据集;具体方法为:基于BIO标注模式,指定一药物实体为药物主体,使用“B-S”或“I-S”标签对药物主体进行标注,其他药物实体则根据该实体与药物主体的相互作用进行标注;一句输入文本若包含n个药物实体,则遍历n个实体,依次作为药物主体,生成n条序列标注文本数据;对每一条序列标注文本数据,将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对,抽取出以该药物为主体的所有相互作用三元组,获得输入文本对应的所有序列标注文本抽取到的相互作用三元组,即是输入文本中包含的所有的药物相互作用三元组;S14、构造类别先验的关键词向量词典,详细步骤如下:S141、对S11预处理后的药物相互作用描述文本再进行以下处理:对于句中的某一对药物,使用类别标签将句子文本主体进行标记;将药物相互作用对应的两个药物实体文本,分别替换为“相互作用类别_a”和“相互作用类别_b”;将无关药物实体名称替换为“DRUG”;S142、将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模型,获得该文本的编码向量V={v1,v2,...,vn},xi表示文本中的第i个单词,vi表示第i个词对应的编码向量,n表示文本长度:V=BioBertX;S143、对文本的嵌入单词向量求平均,得到融合整个上下文语义信息的句子嵌入向量v: S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度: 其中,i表示文本中单词序号,取值1~n;将每个单词向量与句子向量的相似性得分Simi降序排列;根据其他语料中的高频、低价值的停用词构建停用词表,排除停用词表中的所有单词,再选出相似性得分最高的三个单词作为该句的候选关键词;S145、使用基于类别修正的TD-IDF算法完成关键词统计:使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计,公式如下:TF-IDFjwi=TFjwi×IDFjwiTFjwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,定义如下: 其中countwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数,∑countw表示药物相互作用类别为j的文本中总的候选关键词的数目;IDFjwi是基于类别修正的逆文本频率指数,其定义如下: 其中Pwi表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,P′wi表示单词wi在除j以外的药物相互作用类别中出现的概率之和;在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后,选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集;S146、获取关键词向量:将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类,得到类别相关的所有语句,并使用word2vec模型分别在四个语料库上进行预训练,得到4个类别相关的静态词向量表;按照步骤S145得到的每一药物相互作用类别的关键词集,分别从对应的类别相关的静态词向量表中,按照关键词集检索获得每一个关键词的低维嵌入向量,称为关键词向量k;S2、药物命名实体识别;具体实现方法为:S21、将步骤S12获得的数据集中的每一句输入文本的最前面插入一个特殊符号[CLS],该符号对应的最终隐向量捕获了全句的上下文语义信息;根据步骤S142,同样以BioBert预训练模型作为文本的基础编码器,获取文本单词特征和上下文特征,得到文本编码向量H={h0,h1,...,hn},其中h0便是[CLS]符号对应的隐向量,即上下文向量;S22、将步骤S21得到的文本编码向量输入到线性层进行线性转化,得到得分向量H′={h′0,h′1,...,h′n},其表示如下:H′=WH+b其中W和b分别是线性层的权重和偏置;S23、将步骤S22得到的得分向量H′输入至softmax层完成归一化: 其中i=1,...,n,h′i表示输入文本中第i个单词对应的得分向量,表示该单词属于第j个药物实体类别标签的概率;S3、药物相互作用抽取;具体实现方法为:S31、根据步骤S23得到每一个单词对应的药物实体类别标签,将概率最大的实体类别标签作为该单词的实体类别,得到输入文本中的药物实体集合;S32、遍历步骤S31得到的药物实体集合,依次从中选定一个药物实体作为药物主实体s;复用步骤S21得到的文本编码向量,从中获得上下文向量h0、药物主实体的编码向量hs,其中药物主实体若由C个token组成,则对这C个token对应的编码向量求平均得到hs,: S33、根据步骤S145获得的类别关键词集,检索输入文本中包含的类别关键词,将步骤S146获得的句中每一个类别关键词向量k计算其与句中每一个词向量hi的相似度得分:Si=cosk,hi对得到的关键词相似度得分进行归一化,得到第i个词的注意力权重: 计算所有项的注意力权重,将权重向量与词向量相乘,得到嵌入了关键词k与其他词的共现信息的向量,即: 若输入文本中检索出了a个关键词,分别对这a个关键词进行上述计算,得到a个注入了不同关键词信息的向量,将这些向量拼接,馈入一个最大池层提取最重要的关键词信息并降维,得到关键词向量表示如下: S34、对于句中的第i个单词,从步骤S21得到的文本编码向量中获取该单词对应的编码向量hi,作为药物客实体向量;将上下文向量h0、主实体向量hs、客实体向量hi、关键词向量拼接,作为该单词与药物主实体的关系向量表示如下: S35、根据步骤S34获得输入文本中每一个单词与药物主实体的关系向量Hr={hr1,…,hrn},将关系向量Hr输入到线性层进行线性转化,得到关系得分向量H'r={h'r1,…,h'rn},表示如下:H′r=WrHr+br其中Wr和br分别是线性层的权重和偏置;S36、将步骤S35得到的关系得分向量输入至softmax层完成归一化: 其中h′ri表示输入文本中第i个单词跟药物主实体之间的关系得分向量,即表示该单词属于第j个药物相互作用类别标签的概率;将概率最高的作为该单词的类别标签,进一步得到整个输入文本的药物相互作用类别标签序列;S37、根据步骤S36获得的药物相互作用类别标签序列,从中抽取出药物相互作用三元组;具体抽取匹配流程如下:选定标签序列中的药物主实体为药物相互作用三元组的Subject;以药物主实体的句中位置出发,向后搜索,找到对应的药物相互作用类别标签后缀为“effect”、“mechanism”、“advice”、“int”或“false”的单词作为药物相互作用三元组的Object,其后缀对应的关系即是药物相互作用三元组的relation,完成匹配抽取出该三元组;搜索至句尾,完成匹配;S4、模型训练与损失函数。

全文数据:

权利要求:

百度查询: 电子科技大学 多任务序列标注的药物实体和相互作用联合抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。