买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于对偶任务的开放信息抽取方法_复旦大学_202410147705.X 

申请/专利权人:复旦大学

申请日:2024-02-02

公开(公告)日:2024-04-12

公开(公告)号:CN117875419A

主分类号:G06N5/022

分类号:G06N5/022;G06F16/36;G06N3/0455;G06N5/04;G06F18/214;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明属于知识工程技术领域,具体为一种基于对偶任务的开放信息抽取方法。本发明模型包括共享编码器、关系解码器、三元组解码器以及文本解码器;共享编码器对不同模块的输入文本进行统一编码,得到隐藏层的嵌入表示;关系编码器根据输入文本的隐藏层表示生成关系序列,作为提示来引导模型;三元组解码器接收关系序列和输入文本拼接而成的引导序列,完成三元组的抽取;文本解码器将结果编码的三元组输入解码为自然文本。本发明在模型训练过程中引入对偶任务学习进行约束,引导模型学习输入文本中的丰富语义信息与复杂句法结构,提高模型对文本的理解能力,进而提升大规模预训练语言模型在复杂场景下进行开放信息抽取的性能。

主权项:1.一种基于对偶任务的开放信息抽取方法,所述开放信息抽取的任务表述如下:给定输入文本x,要从x中抽取对应的三元组集合其中,si,pi,oi分别为第i个三元组对应的主体、关系与客体;基于该模式,结合对偶任务,构建基于对偶任务的开放信息抽取模型,利用对偶任务的学习来提升抽取模型识别复杂语义与理解句法结构的能力,进而从自然文本中挖掘出高质量的结构化三元组信息来提高下游任务性能;所述开放信息抽取模型包括共享编码器、关系解码器、三元组解码器以及文本解码器;共享编码器用于对不同模块的输入文本进行统一编码,得到隐藏层的嵌入向量表示;关系编码器根据输入文本的隐藏层表示生成关系序列,作为提示来引导模型;三元组解码器接收关系序列和输入文本拼接而成的引导序列,完成三元组的抽取;文本解码器将结果编码的三元组输入解码为自然文本;开放信息抽取过程分解为关系序列抽取和三元组抽取两个阶段;通过第一阶段关系序列抽取构造提示序列,减轻直接抽取过程中产生的重复和遗漏问题;关系提示相较于主体提示或客体提示对模型有着更为明确的指引,避免对第二阶段的抽取任务造成误导;开放信息抽取具体包括两个任务方向:抽取任务方向和对偶任务方向;其中:1抽取任务方向:抽取方向的训练目标为最大化概率pY|x,其中,x是输入文本,Y为三元组;抽取方向共包含两个子任务:首先,从x中抽取出关系提示z=[p1,…,p|Y|],其中pi为Y中第i个三元组对应的关系词;接着,将z与x拼接后得到基于关系提示引导的输入文本[z;x],并以此来生成Y;2对偶任务方向:对偶方向的训练目标为最大化概率px|Y,旨在通过三元组集合Y生成自然文本x;在训练过程中,总体损失函数定义为: 其中,和分别是抽取任务方向和对偶任务方向的损失函数。

全文数据:

权利要求:

百度查询: 复旦大学 一种基于对偶任务的开放信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。