买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于矛盾纠纷数据的新型实体关系联合抽取方法_数据空间研究院_202410119013.4 

申请/专利权人:数据空间研究院

申请日:2024-01-29

公开(公告)日:2024-04-12

公开(公告)号:CN117648980B

主分类号:G06N5/025

分类号:G06N5/025;G06F40/211;G06F40/284;G06F18/24;G06N3/042;G06N3/045;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2024.03.22#实质审查的生效;2024.03.05#公开

摘要:本发明公布了基于矛盾纠纷数据的新型实体关系联合抽取算法,该算法包括以下步骤:S1,通过BERT模型对句子进行编码,以得到词向量;S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重;S3,基于DERNN和GAT对步骤S2中的节点进行编码;S4,将步骤S3中关于节点的两种编码表示加权融合,确定实体预测模型的总目标函数,本发明的有益效果是,将实体和关系的抽取任务整合在一个模型中,可以更好地捕捉它们之间的关联;通过对实体跨度的全面建模,尤其是考虑了连续单词,能够准确地捕捉实体在文本中的具体位置和范围;整合了BERT的句子表示、依存树构建、DERNN编码和GAT图注意力网络,从不同角度捕捉了输入文本的信息。

主权项:1.基于矛盾纠纷数据的新型实体关系联合抽取方法,其特征在于,该方法包括以下步骤:S1,通过BERT模型对句子进行编码,以得到词向量,具体为: 其中,为句子中的所有单词,为单词的词向量,d为向量的维度数;S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重;所述步骤S2中,包括以下子步骤:S21,使用依存句法分析工具对句子进行依存分析,得到依存关系树;S22,构建依存关系邻接矩阵A,遍历依存关系树中的每个节点,对于每个节点i,找到其父节点j,若二者之间存在直接的依存关系,则A[i][j]为1,反之为0;S23,构建依存类别邻接矩阵T,对于每个直接的依存关系,获取其依存关系类别,用BERT编码后保存在矩阵T中;S24,构建全连接矩阵S,计算每对单词的注意力分数,将所有单词建立连接关系,即为S[i][j];S25,将矩阵A和S加权融合并进行规范化处理,得到M[i][j], 其中w1和w2分别为矩阵A以及S的权重参数,表示使用sigmoid激活函数进行规范化处理;S3,基于DERNN和GAT对步骤S2中的节点进行编码,分别得到和;所述步骤3中,使用DERNN对节点进行编码的步骤如下:S311,隐藏状态聚合项编码,,其中是节点的BERT编码,表示与节点相关的子节点的集合,表示子节点的索引集合,表示对所有属于集合的子节点的编码进行求和;S312,依赖关系聚合项编码,,其中是第个子节点与父节点间的依存关系编码向量,依存关系编码向量从矩阵中取值,表示对集合中的所有子节点的依存关系编码进行求和;S313,控制门项编码,控制门项包括遗忘门项、输入门项和更新门项, 其中,、、、、、、、、、、、均为模型可学习的参数;为双曲正切激活函数;S314,得到, 其中,表示元素级别的乘法;所述步骤3中,使用GAT对节点进行编码的步骤如下:S321,线性投影,对输入的节点特征进行线性投影,得到不同注意力头的输入: 其中、分别是节点、节点的邻居节点的第层GAT编码表示,、是模型需要学习的权重矩阵;S322,计算注意力权重,对每个注意力头计算自适应融合权重: 其中,和表示边的权重,由步骤S25得到,表示权重参数,表示节点u的邻居节点集合;S323,注意力池优化,利用计算得到的注意力权重对每个注意力头的邻居节点表示进行加权池化,得到聚合后的节点表示: S324,多头合并,将所有注意力头的输出进行加权求和,得到最终的多头注意力输出: 其中,是学习的权重矩阵,将最后一层GAT编码得到的节点记为;S4,将步骤S3中关于节点的两种编码表示加权融合得到词节点的综合表示,分别利用实体分类器和关系分类器预测文本中单个或连续单词为实体或关系的概率;S5,计算步骤S4中实体分类器和关系分类器的损失函数,确定实体预测模型的总目标损失函数。

全文数据:

权利要求:

百度查询: 数据空间研究院 基于矛盾纠纷数据的新型实体关系联合抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。