买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多任务学习的标题生成方法_北京工业大学_202011258676.2 

申请/专利权人:北京工业大学

申请日:2020-11-11

公开(公告)日:2024-03-19

公开(公告)号:CN112417149B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06N3/0442;G06N3/0464;G06N3/047;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.03.16#实质审查的生效;2021.02.26#公开

摘要:本发明提出一种基于多任务学习的标题生成方法,首先获取需要进行标题生成的源文本数据,并且进行清洗等预处理,将文章送入Self‑Encoder端的BiLSTM模型进行特征提取,之后再通过TextRank算法以及多任务学习模块提取文章中的关键词,再将关键词送入Keywords‑Encoder端进行特征提取,然后将融合关键词信息和源文本信息的特征送入由BiLSTM组成的Decoder端。该网络更好的利用了原文中的关键词信息来进行标题生成,极大的丰富了特征提取的信息,提高了生成标题的质量。

主权项:1.一种基于多任务学习的标题生成方法,其特征在于,包括以下步骤:步骤1、获取需要标题生成的源文本数据,进行文本数据处理,得到预处理结果;步骤2、对预处理后的文本进行词典构建,词和id唯一对应,自定义词向量的维度,对词向量进行初始化;步骤3、将原文章文本序列通过步骤2中构建的词典映射为输入向量,送入基于BiLSTM的Self-Encoder端进行特征提取得到特征向量,并且通过关键词分类器获得文章的对应关键词权重序列,同时对分类器进行训练;步骤4、提取文章中的关键词,并将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取得到特征向量;步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合生成特征向量,送入基于LSTM的Decoder端进行解码,生成文章的标题;步骤3具体包括以下步骤:步骤3.1、统计文章和标题的长度分布,选取文章中长度的最大值为m,标题长度最大值为n;步骤3.2、将文章输入模型的Embedding层获取词向量,维度为m,m取值为300;步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行特征提取;步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词,生成关键词权重序列,并且对多任务学习模块进行训练;步骤4具体包括以下步骤:步骤4.1、利用TextRank算法对文章中词语进行权重计算,生成关键词权重序列;步骤4.2、将计算出的关键词权重序列进行线性组合,得到最终的关键词权重序列并选取前k个词作为关键词;步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取;步骤5具体包括以下步骤:步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转换,使其符合Decoder端输入标准;步骤5.2、通过Decoder端的Dual-attention机制,结果步骤3和步骤4中生成的特征向量,分别计算出注意力权重,作用于Decoder端输入的queries矩阵分别生成文章语义向量和关键词语义向量;再将二者进行特征融合步骤5.3、根据Decoder解码生成的语义向量,经过Softmax层之后生成对应词汇。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于多任务学习的标题生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。