申请/专利权人:北京理工大学
申请日:2021-04-26
公开(公告)日:2022-09-20
公开(公告)号:CN113076391B
主分类号:G06F16/31
分类号:G06F16/31;G06F40/30;G06N5/02;G06N3/04;G06N3/08
优先权:["20210127 CN 2021101120392"]
专利状态码:有效-授权
法律状态:2022.09.20#授权;2021.07.23#实质审查的生效;2021.07.06#公开
摘要:本发明涉及一种基于多层注意力机制的远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。本方法为了解决现有的远程监督关系抽取方法在噪声环境下抽取效果差、忽略对句子包的噪声处理以及句子中实体重复出现等技术问题,针对句子中实体对重复出现的情况,设计一种相对位置特征注意力,充分利用实体对的位置信息。针对句子包噪声问题,通过计算每个句子包的置信度,根据置信度将具有相同关系的噪声大的句子包和噪声小的句子包组合成包组,使得包组间的噪声相对平衡,提高噪声环境下关系抽取的效果。
主权项:1.一种基于多层注意力机制的远程监督关系抽取方法,其特征在于,包括以下步骤:S1:获取知识库,将知识数据集中的句子按包进行划分;S2:获取句子的矩阵表示:首先,令数据集中第i个包其中,表示包Bi的最后一个句子;令包Bi中第j个句子其中,lij表示句子的词语数量;令句子的头实体的位置为其中,为头实体出现的次数;令句子的尾实体的位置为其中,为尾实体出现的次数;然后,将头实体位置和尾实体位置进行组合得到其中对于句子中的每一个单词利用Embedding技术,计算其所有的位置特征:其中,表示单词相对于头实体的第个位置特征向量,表示单词相对于尾实体的第个位置特征向量,表示实数域内维度为dp的向量空间;通过公式1,计算词语的中最终向量表示集合其中: 其中,表示集合中的第l个向量,是词语的嵌入式词向量,表示实数域内维度为dw的向量空间,d表示最终向量表示维度,d=dw+2dp,其中,dw表示嵌入式词向量的维度,dp表示位置特征向量的维度;通过公式2,计算句子矩阵表示集合其中: 其中,表示集合的第l个矩阵,表示句子的第k个词语的第l个最终向量表示,1≤k≤lij,lij为句子的词语数量;S3:通过句子编码器,获取句子的特征向量;对于句子的每一个矩阵表示用一个含有m个卷积核{f1,f2,...,fm}的分段卷积神经网络,得到X的向量表示,其中,fm表示第m个卷积核,每一个卷积核1≤i≤m,表示实数域内尺寸为l*k的矩阵空间,l表示卷积核的长度,k表示卷积核的宽度,表示矩阵集合的第l个矩阵,首先,通过m个卷积核提取卷积特征cij:cij=fi*wj-l+1:j3其中,1≤i≤m,1≤j≤|X|+l-1,wj-l+1:j表示矩阵X的第j-l+1行到第j行对应向量构成的矩阵,|X|表示矩阵表示X的行数;*为卷积操作;经过卷积后,得到矩阵然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分成三部分{ci1,ci2,ci3},分别为句头到头实体之间的部分,头实体到尾实体之间的部分,尾实体到句尾的部分,并进行分段最大池化操作:pij=maxcij4其中,1≤i≤m,1≤j≤3;每个卷积核fi对应一个3维向量pi={pi1,pi2,pi3};所有卷积核对应向量拼接得到向量通过tanh函数,得到矩阵X最终向量表示:s=tanhp1:m5其中,ds=3m,ds表示矩阵X最终向量表示的维度,此时,句子S对应的向量表示与其长度无关;对于句子的个矩阵表示通过公式3、4、5,得到个对应的特征向量S4:通过位置特征注意力,得到句子的权重性向量表示:对于句子通过公式6,得到其权重性特征向量 其中,αk为的权重,通过公式7计算得到: 其中,ek表示向量与句子的对应关系的匹配分数,el表示句子的特征向量集合中第l个向量与句子的对应关系的匹配分数;ek通过公式8计算得到: 其中,为句子的对应关系通过Embedding技术得到的嵌入向量;S5:通过句子注意力,得到包的向量表示;S6:将数据集的包组合成包对;S7:获取每一个包对的向量表示;S8:获取包对的损失值;S9:通过反向传播和梯度下降,对模型参数进行更新;S10:根据训练好的模型,针对未标注的包预测该包的关系,获得新的三元组知识,从而挖掘出包中句子的语义信息。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于多层注意力机制的远程监督关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。