买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于无监督的多模型融合抽取式文本摘要方法_南京硅基智能科技有限公司_202010476581.1 

申请/专利权人:南京硅基智能科技有限公司

申请日:2020-05-29

公开(公告)日:2024-04-02

公开(公告)号:CN111737453B

主分类号:G06F16/34

分类号:G06F16/34;G06F40/30;G06F18/22;G06F18/25

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2020.10.30#实质审查的生效;2020.10.02#公开

摘要:本发明涉及信息抽取领域,公开了一种基于无监督的多模型融合抽取式文本摘要方法,解决了现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果无法准确全面地描述文章内容的问题,其技术方案要点是预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性和多样性。

主权项:1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary;对PacSum模型进行训练优化包括以下步骤:输入用作训练语料的文档集T;对文档集T进行文本预处理;对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={βi,ηi,θi|i=1...924},初始时令i=1,令rouge_list为空列表;对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下: 其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCSlcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;把rouge_i加入到列表rouge_list;再令i=i+1,若i=924,重复执行得到ROUGE评分;若i924,进行下一步;从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数;对待处理文档计算摘要包括以下步骤:输入:当前待处理文档,超参数β,η,θ;在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;使用超参数β由待处理文档构造图G;使用超参数η,θ由图G计算得到摘要;使用超参数β由待处理文档构造图G包括以下步骤:输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;创建有向图G=V,F,顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度viw为该词w的TF-IDF分值,计算公式如下: 其中tfiw为词w在句子Vi中出现的次数,dfw为待处理文档中包含w的句子总数,n为待处理文档的句子总数;创建相似度矩阵中i行j列元素,为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下: 对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下: 其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶点i与顶点j之间的边上的权值;和分别为最小相似度和最大相似度;至此图G=V,F构造完成;使用超参数η,θ由图G计算得到摘要包括以下步骤:输入图G、超参数η以及超参数θ;对图G每个顶点上的句子Vi计算中心度得分centralityVi,公式如下: 其中Eij为顶点i和顶点j之间的边上的权值;按照中心度得分centralityVi从大到小排序,取前L个句子作为摘要,其中L为预先设定的摘要句子数;用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤:输入待处理文档;创建无向图H=U,J,顶点集U是待处理文档中所有句子的构成的集合,边集J中的边表示句子之间的关系,图H的邻接矩阵记为M;加载预训练的word2vec词向量模型,对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量,所有句向量构成矩阵X,维度为n*m,n为句子总数,m为每个句向量的维度,m=100...1000;邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值,即为句向量Xi和Xj的余弦相似度,计算公式为: 其中,Xi、Xj分别是第i,j个句子的句向量,i,j=1...n;利用TextRank分值计算公式迭代计算每个句子Ui的得分WSUi,公式如下: 其中i=1...n;d为阻尼系数,取值为d=0.85;InUi为指向顶点Ui的顶点集,OutUj为顶点Uj指向的顶点集;Mji,Mjk分别为入度与出度边的权值;按照最终得分WSUi从大到小顺序输出前L个句子作为文档的第二批摘要summary2。

全文数据:

权利要求:

百度查询: 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。