【发明授权】一种基于多任务学习的标题生成方法_北京工业大学_202011258676.2

导航：龙图腾网> 最新专利技术> 一种基于多任务学习的标题生成方法_北京工业大学_202011258676.2

申请/专利权人：北京工业大学

申请日：2020-11-11

公开（公告）日：2024-03-19

公开（公告）号：CN112417149B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06N3/0442;G06N3/0464;G06N3/047;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.03.16#实质审查的生效;2021.02.26#公开

摘要：本发明提出一种基于多任务学习的标题生成方法，首先获取需要进行标题生成的源文本数据，并且进行清洗等预处理，将文章送入Self‑Encoder端的BiLSTM模型进行特征提取，之后再通过TextRank算法以及多任务学习模块提取文章中的关键词，再将关键词送入Keywords‑Encoder端进行特征提取，然后将融合关键词信息和源文本信息的特征送入由BiLSTM组成的Decoder端。该网络更好的利用了原文中的关键词信息来进行标题生成，极大的丰富了特征提取的信息，提高了生成标题的质量。

主权项：1.一种基于多任务学习的标题生成方法，其特征在于，包括以下步骤：步骤1、获取需要标题生成的源文本数据，进行文本数据处理，得到预处理结果；步骤2、对预处理后的文本进行词典构建，词和id唯一对应，自定义词向量的维度，对词向量进行初始化；步骤3、将原文章文本序列通过步骤2中构建的词典映射为输入向量，送入基于BiLSTM的Self-Encoder端进行特征提取得到特征向量，并且通过关键词分类器获得文章的对应关键词权重序列，同时对分类器进行训练；步骤4、提取文章中的关键词，并将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取得到特征向量；步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合生成特征向量，送入基于LSTM的Decoder端进行解码，生成文章的标题；步骤3具体包括以下步骤：步骤3.1、统计文章和标题的长度分布，选取文章中长度的最大值为m，标题长度最大值为n；步骤3.2、将文章输入模型的Embedding层获取词向量，维度为m，m取值为300；步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行特征提取；步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词，生成关键词权重序列，并且对多任务学习模块进行训练；步骤4具体包括以下步骤：步骤4.1、利用TextRank算法对文章中词语进行权重计算，生成关键词权重序列；步骤4.2、将计算出的关键词权重序列进行线性组合，得到最终的关键词权重序列并选取前k个词作为关键词；步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取；步骤5具体包括以下步骤：步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转换，使其符合Decoder端输入标准；步骤5.2、通过Decoder端的Dual-attention机制，结果步骤3和步骤4中生成的特征向量，分别计算出注意力权重，作用于Decoder端输入的queries矩阵分别生成文章语义向量和关键词语义向量；再将二者进行特征融合步骤5.3、根据Decoder解码生成的语义向量，经过Softmax层之后生成对应词汇。

全文数据：

权利要求：

百度查询：北京工业大学一种基于多任务学习的标题生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：天线组件和电子设备_深圳市锐尔觅移动通信有限公司_202211347912.7

下一篇：用于生成多个道路使用者的轨迹信息的方法和系统_APTIV技术股份公司_202311406778.8

相关技术

天线组件和电子设备_深圳市锐尔觅移动通信有限公司_202211347912.7

用于生成多个道路使用者的轨迹信息的方法和系统_APTIV技术股份公司_202311406778.8

机动车辆和检测该机动车辆本身的行驶速度的方法_法拉利股份有限公司_202311420447.X

用于装配式面层支护设计的模拟设备及其模拟方法_中建八局广西建设有限公司_202311679130.8

低速时车辆档位控制的方法和装置_上海汽车集团股份有限公司_202211337164.4

数字信号解析方法、装置、设备及车辆_北京罗克维尔斯科技有限公司_202211349864.5

文档处理方法及相关装置_马上消费金融股份有限公司_202311300359.6

一种用于废气净化的镍合金洗涤器_南京胜德金属装备有限公司_202311756686.2

声学载体头监测_应用材料公司_202310359795.4

消防救援中多设备协同的交互控制系统_东莞理工学院_202310667377.1

自适应型膜片式EFPI传感器及局放超声信号检测系统_国网黑龙江省电力有限公司电力科学研究院_202410006373.3

线圈部件_株式会社村田制作所_202311414169.7

龙图腾网&IPTOP

【发明授权】一种基于多任务学习的标题生成方法_北京工业大学_202011258676.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务