买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文本摘要的生成方法、存储介质和服务器_平安科技(深圳)有限公司_201811185494.X 

申请/专利权人:平安科技(深圳)有限公司

申请日:2018-10-11

公开(公告)日:2024-05-07

公开(公告)号:CN109471933B

主分类号:G06F16/34

分类号:G06F16/34;G06F40/284;G06F40/211;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.05.07#授权;2020.11.06#实质审查的生效;2019.03.15#公开

摘要:本发明涉及计算机技术领域,提出一种文本摘要的生成方法、存储介质和服务器。所述文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。

主权项:1.一种文本摘要的生成方法,其特征在于,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要;分别获取所述每个文本的标题;从所述每个文本的标题中提取第一关键词;从所述文本集合的文本摘要中提取第二关键词;将所述第一关键词和所述第二关键词进行匹配;若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成;其中,所述分别提取所述文本集合中每个文本的关键词包括:分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;对所述独立的文本摘要中的每个词汇进行词性标注;将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。

全文数据:一种文本摘要的生成方法、存储介质和服务器技术领域本发明涉及计算机技术领域,尤其涉及一种文本摘要的生成方法、存储介质和服务器。背景技术摘要是能够反映文章中心内容的一段文本,能够帮助人们在阅读长篇的文章时缩短阅读时间。文本摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展。然而,现有的文本摘要生成技术局限于生成某一篇文章的摘要,而在实际需求中,有时候需要针对多篇相同主题的文章生成它们的共同摘要,目前尚无有效的方法能够实现该需求。发明内容有鉴于此,本发明实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。本发明实施例的第一方面,提供了一种文本摘要的生成方法,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。本发明实施例的第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的文本摘要的生成方法的步骤。本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。本发明提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种文本摘要的生成方法的第一个实施例的流程图;图2是本发明实施例提供的一种文本摘要的生成方法的第二个实施例的流程图;图3是本发明实施例提供的一种文本摘要的生成方法的第三个实施例的流程图;图4是本发明实施例提供的一种文本摘要的生成装置的一个实施例的结构图;图5是本发明实施例提供的一种服务器的示意图。具体实施方式本发明实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。请参阅图1,本发明实施例中一种文本摘要的生成方法的第一个实施例包括:101、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;首先,获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本。具体的,可以搜集多篇相同主题的文章组成所述文本集合,比如不同媒体针对同一事件的多篇新闻报道。102、分别提取所述文本集合中每个文本的关键词;在获取到待处理的文本集合之后,分别提取所述文本集合中每个文本的关键词。在进行关键词提取时,可以采用现有技术中各种常用的关键词提取方法,比如TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取方法等。103、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。在提取到所述文本集合中每个文本的关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。由于输入该神经网络模型的关键词是从多个文本中提取出来的,即该神经网络模型输出的文本摘要实际上是综合考虑该文本集合中每个文本的特征生成的,因此该神经网络模型输出的文本摘要能够作为这些文本共同的文本摘要。进一步的,在输出所述文本集合的文本摘要之后,还可以包括:1分别获取所述每个文本的标题;2从所述每个文本的标题中提取第一关键词;3从所述文本集合的文本摘要中提取第二关键词;4将所述第一关键词和所述第二关键词进行匹配;5若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。对于上述步骤1,分别获取所述文本集合中每个文本的标题,假设该文本集合中包含的各个文本为具有相同主题的文章,每篇文章具有自身的标题。对于上述步骤2,分别从每个文本的标题中提取出关键词,这些关键词组成第一关键词。对于上述步骤3,从所述文本集合的文本摘要中提取关键词,称作第二关键词。对于上述步骤4,在关键词匹配时,可以采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;若所述共现概率大于或等于预设阈值比如50%,则判定所述匹配通过;若所述共现概率小于所述预设阈值,则判定所述匹配未通过。对于上述步骤5,若所述匹配未通过,则将各个所述关键词即步骤102中提取到的关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。若从所述文本集合的文本摘要中提取出的关键词和从每个文本的标题中提取出的关键词匹配未通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较低,不能作为该多个文本共同的文本摘要,此时将步骤102中提取到的关键词输入由所述第一关键词训练形成的第二神经网络模型,用该第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,作为该多个文本共同的文本摘要。通过这样设置,能够进一步提高生成的文本摘要的准确度。另外,若所述匹配通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较高,可以作为该多个文本共同的文本摘要。本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多篇内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多篇文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。请参阅图2,本发明实施例中一种文本摘要的生成方法的第二个实施例包括:201、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;步骤201与步骤101相同,具体可参照步骤101的相关说明。202、分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;在获取待处理的文本集合之后,分别对所述文本集合中的每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量,具体的预处理方法可参照现有技术。203、将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;预处理后的所述每个文本成为一个个的词向量,将这些词向量分别输入所述第一神经网络模型即步骤206中的神经网络模型,输出所述每个文本独立的文本摘要。比如,将预处理后的文本A输入该模型,输出A独立的文本摘要;将预处理后的文本B输入该模型,输出B独立的文本摘要,以此类推。204、对所述独立的文本摘要中的每个词汇进行词性标注;在获得每个文本独立的文本摘要之后,对这些文本摘要中的每个词汇进行词性标注。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,也即标注出每个词汇的词性,比如动词、名词、形容词等。在进行词性标注时,可以采用基于统计模型的词性标注方法、基于规则的词性标注方法等现有方法。205、将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词;在对所述独立的文本摘要中的每个词汇进行词性标注之后,将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。206、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。在提取出关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。进一步的,步骤206可以包括:1分别统计各个所述关键词在所述独立的文本摘要中的出现次数;2将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。比如,该文本集合包含3个文本,分别为A、B和C,通过步骤203获得A独立的文本摘要、B独立的文本摘要和C独立的文本摘要。将这些独立的文本摘要中的动词或名词提取出来作为关键词,然后分别统计各个关键词在这些独立的文本摘要中的出现次数。假设关键词X在该3个独立的文本摘要中总共出现了10次,关键词Y在该3个独立的文本摘要中总共出现了3次,关键词Z在该3个独立的文本摘要中总共出现了8次,则将这几个关键词按照X-Z-Y的顺序依次输入所述第一神经网络模型。由于对于带有注意力机制的seq2seq模型来说,越先输入模型的信息在计算时所占的权重越高,故按照出现次数由高至低的顺序依次输入各个关键词,能够使得出现频率高的关键词获得较高的计算权重,从而得到更准确的文本摘要输出。本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;对所述独立的文本摘要中的每个词汇进行词性标注;将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。与本发明的第一个实施例相比,本实施例提供了一种具体的提取所述文本集合中每个文本的关键词的方法。请参阅图3,本发明实施例中一种文本摘要的生成方法的第三个实施例包括:301、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;步骤301与步骤101相同,具体可参照步骤101的相关说明。302、分别对所述每个文本进行文本分词操作,得到初始词汇集;在获取待处理的文本集合之后,分别对该文本集合中的每个文本进行文本分词操作,将文本转换为一个个词汇,构成初始词汇集。303、去除所述初始词汇集中的停用词;在得到初始词汇集之后,去除所述初始词汇集中的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉的某些字或词。304、将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;然后,将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵。TF-IDF的含义是词频-逆文档频率,指的是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的分类区分能力,适合用来分类。简单的说,TF-IDF可以反映出语料库中某篇文档中某个词的重要性。305、将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词;在得到TF-IDF词频矩阵之后,将所述词频矩阵中词频最高的预设数量比如10个的词汇提取出来,作为关键词。换句话说,也就是将各个文本中重要性最高的一定数量的词汇提取出来,作为关键词。306、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。在提取出关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。进一步的,步骤306可以包括:将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。由于对于带有注意力机制的seq2seq模型来说,越先输入模型的信息在计算时所占的权重越高,故按照所述词频由高至低的顺序依次输入各个关键词,能够使得词频高的关键词获得较高的计算权重,从而得到更准确的文本摘要输出。本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别对所述每个文本进行文本分词操作,得到初始词汇集;去除所述初始词汇集中的停用词;将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。与本发明的第二个实施例相比,本实施例提供了另一种提取所述文本集合中每个文本的关键词的方法。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上面主要描述了一种文本摘要的生成方法,下面将对一种文本摘要的生成装置进行详细描述。请参阅图4,本发明实施例中一种文本摘要的生成装置的一个实施例包括:文本集合获取模块401,用于获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;关键词提取模块402,用于分别提取所述文本集合中每个文本的关键词;文本摘要输出模块403,用于将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。进一步的,所述关键词提取模块可以包括:预处理单元,用于分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;独立文本摘要输出单元,用于将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;词性标注单元,用于对所述独立的文本摘要中的每个词汇进行词性标注;第一关键词提取单元,用于将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。进一步的,所述文本摘要输出模块可以包括:次数统计单元,用于分别统计各个所述关键词在所述独立的文本摘要中的出现次数;第一文本摘要输出单元,用于将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。进一步的,所述关键词提取模块可以包括:分词单元,用于分别对所述每个文本进行文本分词操作,得到初始词汇集;停用词去除单元,用于去除所述初始词汇集中的停用词;词频矩阵转换单元,用于将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;第二关键词提取单元,用于将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词。进一步的,所述文本摘要输出模块可以包括:第二文本摘要输出单元,用于将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。进一步的,所述文本摘要的生成装置还可以包括:标题获取模块,用于分别获取所述每个文本的标题;标题关键词提取模块,用于从所述每个文本的标题中提取第一关键词;文本摘要关键词提取模块,用于从所述文本集合的文本摘要中提取第二关键词;关键词匹配模块,用于将所述第一关键词和所述第二关键词进行匹配;文本摘要替换模块,用于若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。更进一步的,所述关键词匹配模块可以包括:共现概率计算单元,用于采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;第一判定单元,用于若所述共现概率大于或等于预设阈值,则判定所述匹配通过;第二判定单元,用于若所述共现概率小于所述预设阈值,则判定所述匹配未通过。本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1至图3表示的任意一种文本摘要的生成方法的步骤。本发明实施例还提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如图1至图3表示的任意一种文本摘要的生成方法的步骤。图5是本发明一实施例提供的服务器的示意图。如图5所示,该实施例的服务器5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个文本摘要的生成方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块单元的功能,例如图4所示模块401至403的功能。示例性的,所述计算机可读指令52可以被分割成一个或多个模块单元,所述一个或者多个模块单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述服务器5中的执行过程。所述服务器5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器5还可以包括输入输出设备、网络接入设备、总线等。所述处理器50可以是中央处理单元CentraLProcessingUnit,CPU,还可以是其他通用处理器、数字信号处理器DigitaLSignaLProcessor,DSP、专用集成电路AppLicationSpecificIntegratedCircuit,ASIC、现成可编程门阵列FieLd-ProgrammabLeGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigitaL,SD卡,闪存卡FLashCard等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM,Read-OnLyMemory、随机存取存储器RAM,RandomAccessMemory、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

权利要求:1.一种文本摘要的生成方法,其特征在于,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;对所述独立的文本摘要中的每个词汇进行词性标注;将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:分别统计各个所述关键词在所述独立的文本摘要中的出现次数;将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。4.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:分别对所述每个文本进行文本分词操作,得到初始词汇集;去除所述初始词汇集中的停用词;将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词。5.根据权利要求4所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。6.根据权利要求1至5中任一项所述的文本摘要的生成方法,其特征在于,在输出所述文本集合的文本摘要之后,还包括:分别获取所述每个文本的标题;从所述每个文本的标题中提取第一关键词;从所述文本集合的文本摘要中提取第二关键词;将所述第一关键词和所述第二关键词进行匹配;若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。7.根据权利要求6所述的文本摘要的生成方法,其特征在于,所述将所述第一关键词和所述第二关键词进行匹配包括:采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;若所述共现概率大于或等于预设阈值,则判定所述匹配通过;若所述共现概率小于所述预设阈值,则判定所述匹配未通过。8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本摘要的生成方法的步骤。9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。10.根据权利要求9所述的服务器,其特征在于,在输出所述文本集合的文本摘要之后,还包括:分别获取所述每个文本的标题;从所述每个文本的标题中提取第一关键词;从所述文本集合的文本摘要中提取第二关键词;将所述第一关键词和所述第二关键词进行匹配;若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。

百度查询: 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。