买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于引导机制的二阶段局部生成式摘要方法_西南石油大学_202410348190.X 

申请/专利权人:西南石油大学

申请日:2024-03-26

公开(公告)日:2024-04-30

公开(公告)号:CN117951291A

主分类号:G06F16/34

分类号:G06F16/34;G06F40/166;G06N3/0455;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:本发明涉及一种基于引导机制的二阶段局部生成式摘要方法,属于自然语言处理领域;它解决了现有生成式摘要模型处理长文本时计算资源耗费过大以及容易生成不准确信息的问题。其技术方案是:首先获得输入文本的抽取式摘要并将其作为文章的引导信号输入到编码器中进行编码;其次对文章进行分割并输入到编码器中进行局部编码;最后将引导信号的编码信息与分割页面的局部编码信息一起输入解码器中进行解码并对解码后的局部预测信息进行组合预测从而生成文章摘要。本发明具有以下有益效果:利用局部编码减少了编解码过程中需要的计算内存资源;加入引导机制提高生成摘要的质量;采用文章的抽取式摘要作为引导信号以保证引导信号的真实性与显著性。

主权项:1.一种基于引导机制的二阶段局部生成式摘要方法,其特征在于:利用局部性原理对文章进行分割从而实现局部编解码;在实现局部编解码生成式摘要模型的基础上中加入了引导机制,所述方法包括以下步骤:S100、通过抽取式摘要模型对输入文章进行处理从而生成抽取式摘要并将抽取式摘要作为模型解码过程中的引导信号;对原始输入文档进行分割处理,将输入文档分割成几个不同的页面部分,输入文档可表示为,其中表示预先设定的单文档页面分割数量;S200、利用预训练的BART模型对分割页面以及输入文档的抽取式摘要进行词嵌入向量的表示,其中表示输入文档分割后页面中的第个页面,表示第个页面的第个字符token,代表页面中token的总数,表示抽取式摘要中的第个字符token,代表输入文档的抽取式摘要中token的总数;S300、利用两个编码器分别对文章信息和引导信号进行编码;将S200中多个分割页面Page的词嵌入向量表示与原始文档的抽取式摘要E的词嵌入向量表示分别输入到两个共享词嵌入层参数的预训练的BART编码器中进行编码操作,编码器包含12个相同的层,每层都由一个自注意力模块和一个前馈神经模块组成,其中每层的输出可表示为: ; ; ; ; ; ;其中表示上一层的输出,的最初值为词嵌入向量表示,表示用于编码文章信息的编码器每层结构中自注意力模块的输出,表示用于编码文章信息编码器每层结构中前馈神经模块的输出;表示上一层的输出,的最初值为词嵌入向量表示,表示用于编码文章抽取式摘要信息的编码器每层结构中自注意力模块的输出,表示用于编码文章抽取式摘要信息编码器每层结构中前馈神经模块的输出;表示标准化层;表示计算自注意力权重的自注意力模块层;表示前馈神经网络层;得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作,得到两个编码器的编码结果即两个编码器最后一层的隐藏向量输出;S400、利用解码器对S300的隐藏向量进行解码,解码器同编码器一样也包含12个相同的层,每层包含了四个模块分别是一个自注意力模块、两个交叉注意力模块以及一个前馈神经网络模块,其中每层的输出可表示为: ; ; ; ; ;其中表示解码器上一层的输出,的初始值为输入文档参考摘要的词嵌入向量表示,表示解码器每层结构中自注意力模块的输出,和分别表示解码器每层结构中两个交叉注意力模块的输出,表示解码器每层结构中前馈神经模块的输出;表示用于对引导信号进行编码的编码器输出;表示用于对输入文档文章进行编码的编码器输出;表示交叉注意力模块;在解码过程中得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作,得到解码器的预测结果即最后一层的隐藏向量输出;S500、对多个分割页面的解码器隐藏向量进行组合预测,将多个局部预测页面的隐藏向量组合起来经过一层线性映射层和激活函数,得到输入文档的全局摘要预测概率分布,按照概率分布再获得最终的生成式摘要并将最终的生成式摘要与参考摘要进行交叉熵损失计算从而进行模型的训练。

全文数据:

权利要求:

百度查询: 西南石油大学 一种基于引导机制的二阶段局部生成式摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。