申请/专利权人:昆明理工大学
申请日:2021-04-26
公开(公告)日:2022-09-23
公开(公告)号:CN113239142B
主分类号:G06F16/33
分类号:G06F16/33;G06F40/211;G06F40/30;G06N3/04
优先权:
专利状态码:有效-授权
法律状态:2022.09.23#授权;2021.08.27#实质审查的生效;2021.08.10#公开
摘要:本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。本发明首先获取预处理语料的句法依存信息以及进行BPE编码获取子词单元;将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;采用transformer作为编码器,将句法信息与文本的语义信息进行融合;最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。本发明的检测方法更简便有效。
主权项:1.融合句法信息的无触发词事件检测方法,其特征在于:所述方法包括:Step1、语料收集并进行预处理;Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元,并分配训练语料、测试语料和验证语料;Step3、将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;Step4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;Step5、采用基于transformer的语义表示层作为编码器,将句法信息与文本的语义信息进行融合,以编码获取句子的上下文语义表征;Step6、最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务;所述Step6的具体步骤如下:Step6.1、如式1和式2所示,通过对全局特征Zglobal和候选事件类型的词嵌入G进行头数为8的多头注意力机制,来给Zglobal中潜在的触发词分配更高的权重; Zatt=ContactAt,1=t=82其中,Zglobal为语义表示层的输出,G为候选事件类型的词嵌入,是在输入向量上执行线性投影的参数,At表示多头注意力机制中每个头的最终输出;Zatt为At的拼接,表示包含触发词信息的局部特征;Step6.2、为了获取全局的事件信息,将全局特征Zglobal和局部特征Zatt进行加权求和后再执行平均池化操作,然后经过一个线性层后获得向量H;最后,对H执行softmax获取对应类别的分布概率,并根据概率分布的值来判断输入句子的事件类型,如式3~5所示:H=LinearAvgPoolingZglobal+Zatt3y=softmaxWH+b4 其中,H表示全局事件信息,W和b为权重和偏置,y表示输入句子是否为预标注类型的概率,表示最终的预测值。
全文数据:
权利要求:
百度查询: 昆明理工大学 融合句法信息的无触发词事件检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。