买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种事理图谱自动构建方法和系统_云孚科技(北京)有限公司_202210801439.9 

申请/专利权人:云孚科技(北京)有限公司

申请日:2022-07-08

公开(公告)日:2022-09-23

公开(公告)号:CN114880491B

主分类号:G06F16/36

分类号:G06F16/36;G06F40/126;G06F40/211;G06F40/284;G06F40/30;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2022.09.23#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要:本发明提出一种事理图谱自动构建方法和系统。其中,方法包括:采用基于深度学习网络改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,并得到事件集合和因果关系事件对集合;对事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,并得到两两事件的相似程度;根据两两事件的相似程度,对事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱。本发明提出的方案,可大幅提高事件及其因果关系的抽取准确率;可大幅提高事件相似度计算的准确率。

主权项:1.一种事理图谱自动构建方法,其特征在于,所述方法包括:步骤S1、采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码,得到句子的语义向量;步骤S2、采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列,得到事件集合和因果关系事件对集合;步骤S3、通过所述事件集合构建事件对集合,再对所述事件对集合应用基于对比学习的事件向量学习的方法,得到事件对的语义向量,再通过所述事件对的语义向量,判断两个事件是否相似,得到两两事件的相似程度;步骤S4、通过因果关系事件对集合,构建事理图谱的初始版本;根据所述两两事件的相似程度,对所述事理图谱的初始版本中的事件进行聚合,得到最终版本的事理图谱;Transformer类预训练模型有L个Transformer层,所述文本编码模型是在第k个Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;在所述步骤S1中,所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的方法包括:句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合;句子通过所述触发词增强模块的触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量,再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加,得到触发词增强的字符向量集合;将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L-k层,得到句子的语义向量;所述触发词增强模块通过触发词匹配和触发词嵌入,得到融合后的触发词集合特征向量的方法包括:利用触发词词典找出句子中每个字符匹配的触发词集合,通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合;将所述触发词词向量集合进行维度对齐;将维度对齐后的触发词词向量求和平均后,得到融合后的触发词集合特征向量;在所述步骤S2中,所述采用统一的字符对多头标注方式,标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列的方法包括:所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构,接入一个softmax层进行标签预测,具体公式为: 其中,ci、cj为句子中的任意2个字符,矩阵Wo和向量bo为序列标注模型的参数,可通过训练得到,表示将字符对ci,cj通过序列标注模型标记为标签l的概率,,取概率最大的标签作为标签预测的结果,hi,j为字符对ci,cj的语义向量,,其中hi、hj分别为字符ci、cj的语义向量,矩阵Wp和向量bp为序列标注模型的参数,可通过训练得到;在所述步骤S2中,所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点,改进损失函数,具体公式为: 其中,E为事件标注序列,S为事件因果关系头标注序列,T为事件因果关系尾标注序列,n为字符序列的长度,为Dice损失函数的权重因子,为Focal损失函数的权重因子,为Focal损失函数调节难分样本的损失比例的参数,为字符对ci,cj在标注序列*中通过序列标注模型预测其标签值为1的概率,为字符对ci,cj在标注序列*的真实标签值。

全文数据:

权利要求:

百度查询: 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。