首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种融合主题信息的关键词生成方法_淮阴工学院_202110525483.7 

申请/专利权人:淮阴工学院

申请日:2021-05-13

公开(公告)日:2024-05-17

公开(公告)号:CN113255344B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/237;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2021.08.31#实质审查的生效;2021.08.13#公开

摘要:本发明涉及自然语言处理和关键词提取技术领域,公开了一种融合主题信息的关键词生成方法,对语料库C进行预处理得到向量模型;采用word2vec对Xbow预训练得到词向量Xseq;将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;采用集束搜索,生成关键词的排名列表。与现有技术相比,本发明不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。

主权项:1.一种融合主题信息的关键词生成方法,其特征在于,包括如下步骤:步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;步骤2:采用word2vec对Xbow预训练得到词向量Xseq;步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ;步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;步骤5.1:将文档-主题分布θ输入单向门控循环单元网络GRU,用于添加主题信息θ,具体公式为sj=fGRU[zj;θ],sj-1,其中,zj为第j个解码器的输入,sj为解码器的第j个时刻的隐藏状态,sj-1为解码器的前一个时刻的隐藏状态;步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij;步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj,步骤5.4:将上下文向量cj与解码器的第j个时刻的隐藏状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmaxWgen[sj;cj]+bgen,其中,Wgen,bgen是可训练参数;步骤5.5:输入主题敏感的上下文向量cj、解码器的第j个时刻的隐藏状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoidWλ[zj;sj;cj;θ]+bλ,其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj;步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率;步骤6:采用集束搜索,生成关键词的排名列表。

全文数据:

权利要求:

百度查询: 淮阴工学院 一种融合主题信息的关键词生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。