买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于范例学习的文本摘要生成框架系统及方法_之江实验室;复旦大学_202110885791.0 

申请/专利权人:之江实验室;复旦大学

申请日:2021-08-03

公开(公告)日:2024-04-09

公开(公告)号:CN113673241B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/211;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.12.07#实质审查的生效;2021.11.19#公开

摘要:本发明公开了一种基于范例学习的文本摘要生成框架及方法,允许在摘要生成的过程中参考一些写作范例,框架包括检索和生成两个阶段,检索阶段,给定一个文本,使用对比学习去数据库中检索一些范例,假定越好的摘要在语义空间应该和原文离得更近,检索器的模型使用了孪生网络的结构;生成阶段,提出了一种结合范例进行摘要生成的方法,可以方便的加在目前所有主流的条件生成模型上,为了更好的学习范例,将待生成的摘要和范例摘要按照句子对齐;通过训练好的模型进行预测,即解码阶段,使用集束搜索算法并鼓励那些和范例更相似的束。

主权项:1.一种基于范例学习的文本摘要生成方法,其特征在于包括如下步骤:S1,为待生成摘要的源文档,检索出一组用于参考的范例摘要;S2,基于序列到序列框架,使用最大似然损失进行训练,包括如下步骤:S21,将源文档和范例摘要合并成一个序列;S22,通过极大似然估计,使用前t-1个标准摘要的真值词来预测第t个词,极大似然估计训练的损失函数: 其中P表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第t个词,yt表示第t步解码之前已经生成的词,n表示句子长度;S3,基于训练好的序列到序列框架,预测摘要,包括如下步骤:S31,将源文档和范例摘要合并成一个序列;S32,通过极大似然估计,使用前t-1个预测词来预测第t个词,得到对数似然得分: S33,采用集束搜索算法,每次预测保留一组词,接着往下预测,形成的不同路径作为候选范例摘要,即束,将第k个束的对数似然得分MLEk,加入文本摘要评价指标奖励分,在集束搜索中,每生成n个词后,根据解码端对编码端范例摘要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范例摘要相似的束的束得分;S34,选择得分最高的候选摘要作为最终的摘要。

全文数据:

权利要求:

百度查询: 之江实验室;复旦大学 一种基于范例学习的文本摘要生成框架系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。