买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于图模型的篇章级别事件因果关系抽取方法_武汉大学_202011408734.5 

申请/专利权人:武汉大学

申请日:2020-12-04

公开(公告)日:2024-03-19

公开(公告)号:CN112507124B

主分类号:G06F16/36

分类号:G06F16/36;G06F40/211;G06F40/30;G06F18/214;G06F16/31

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要:本发明提出了一种基于图模型的篇章级别事件因果关系抽取方法。本发明进行数据收集并进行训练集合、测试集合的划分;对训练集合进行事件与事件因果关系人工标注;对数据进行预处理操作得到规范化后的输入数据;将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量;将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量;基于包含篇章信息的事件语义向量利用图模型计算事件因果关系;利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。本发明的事件因果关系抽取性能更加优良,且也能推广至其他类型实体关系、事件关系抽取任务之中。

主权项:1.一种基于图模型的篇章级别事件因果关系抽取方法,其特征在于,包括以下步骤:步骤1:收集篇章文本数据,通过随机抽取算法分别得到多篇文本数据组成未标注训练数据集合,剩余文本数据组成预测数据集合;将未标注训练数据集合利用CAT方法进行人工标注,得到包含事件下标索引与事件之间对应因果关系的训练数据集合;步骤2:将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的规范化后的输入数据;步骤3:将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量;步骤4:将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量;步骤5:基于包含篇章信息的事件语义向量利用图模型计算事件因果关系;步骤6:将步骤3、4、5中的模型利用梯度下降算法进行训练得到用于预测事件因果关系的模型;步骤5包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤:步骤5.1:将包含篇章信息的各事件语义向量利用列表插入操作形成事件语义向量列表;步骤5.2:将事件语义向量列表利用Biaffine算法得到事件因果关系矩阵: 其中,H是事件语义向量列表,U1、U2分别为第一待训练矩阵参数、第二待训练矩阵参数,b为待训练偏置项参数;步骤5.3、基于事件因果关系矩阵,利用图模型进行计算得到包含因果推理信息的事件语义向量列表: 其中,表示事件语义向量列表中第i个事件语义向量在第L+1次迭代后得到的新的事件语义向量,表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量;Gi表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,cij为该集合所包含事件数量,c表示图中存在的连接关系类型数量,所述连接关系类型包括:无关系、正向因果关系、反向因果关系,Wn是连接关系为n时待训练矩阵参数,bn是连接关系为n时待训练偏置项参数,αn是连接关系为n时信息更新权重;步骤5.4、基于包含因果推理信息的事件语义向量列表,利用Biaffine算法得到最终事件因果关系预测结果: 其中,H′是包含因果推理信息的事件语义向量列表,U1、U2、b与步骤5.2中所述参数保持一致;将BiaffineH′计算得到的结果经过降维算法得到最终预测结果,定义为: 其中NRn表示第n个文本数据中篇章中预测出的事件数量,NRn=Mn*Mn-12,Mn为第n个文本数据中事件数量;步骤6.1、将步骤5.4所述最终事件因果关系预测结果与事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度;步骤6.2、将预测损失梯度利用梯度下降算法对步骤3、4、5中的模型进行训练更新;步骤6.3、执行上述两步骤直到训练终止得到用于预测事件因果关系的模型;所述训练终止条件:每轮次训练后,基于训练数据集合,以F1-score为评价指标,进行五折交叉验证,连续多轮次评价指标不上升即终止训练。

全文数据:

权利要求:

百度查询: 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。