【发明授权】一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7

导航：龙图腾网> 最新专利技术> 一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7

申请/专利权人：北京奇艺世纪科技有限公司

申请日：2018-08-07

公开（公告）日：2023-09-08

公开（公告）号：CN109190111B

主分类号：G06F40/258

分类号：G06F40/258;G06F40/284

优先权：

专利状态码：有效-授权

法律状态：2023.09.08#授权;2019.02.12#实质审查的生效;2019.01.11#公开

摘要：本发明实施例提供了一种文档正文关键词提取方法及装置。该方法包括：获取目标文档的标题对应的词向量；对所述目标文档的正文进行关键词提取，获得文档正文的至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述目标文档正文的最终关键词。应用本发明实施例提取的文档正文关键词对目标文档进行检索时，能够准确地获取到与目标文档主题一致的正文关键词。

主权项：1.一种文档正文关键词提取方法，其特征在于，所述方法包括：获取目标文档的标题对应的词向量；对所述目标文档的正文进行关键词提取，获得所述正文中至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词；其中，预设条件为相似度大于预设阈值；所述获取目标文档的标题对应的词向量的步骤，包括：获取目标文档的标题中的每个词语对应的词向量；对所述标题中所有词语对应的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。

全文数据：一种文档正文关键词提取方法及装置技术领域本发明涉及自然语言处理领域，特别是涉及一种文档正文关键词提取方法及装置。背景技术随着信息时代的发展，网络上文本信息的爆炸式增长，如何对大量信息进行有效地组织、分类和检索已成为多数网络用户越来越关心的问题。关键词高度概括了文本的主要内容，显然关键词的提取方法是信息检索的核心问题。同时，关键词提取在自动文献、信息检索、文本分类、文本聚类等方面有至关重要的作用。目前，文档正文关键词提取方法中主要包含四个步骤：1.利用分词工具，对文档正文进行分词处理，得到文档正文的词语；2.统计每个文档正文的词语在文档正文中出现的频率TFTermfrequency，词频和每个词语对应的在文档正文中的普遍重要性的度量值IDFInversedocumentfrequency，逆文本频率；3.按每个词语对应的词频和逆文本频率的相乘得到的TF*IDF值对文档正文分词得到的词语进行排序；4.按照预定的目标文档关键词个数要求，将排序靠前的几个词语确定为目标文档正文的关键词。显然，现有技术的文档正文关键词提取方法只是针对文档的正文提取关键词，提取结果可能会出现与文档主题无关的关键词结果。发明内容本发明实施例的目的在于提供一种文档正文关键词提取方法及装置，以避免从文档正文中提取的关键词与文档主题无关。具体技术方案如下：第一方面，提供了一种文档正文关键词提取方法，该方法包括：获取目标文档的标题对应的词向量；对目标文档的正文进行关键词提取，获得文档正文的至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词。进一步的，所述获取目标文档的标题对应的词向量的步骤，可以包括：获取目标文档的标题中的每个词语对应的词向量；对所述标题中所有词语对应的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。进一步的，所述获取所述文档标题中的每个词语对应的词向量的步骤，可以包括：对目标文档的标题进行分词处理，得到所述标题中的每个词语；针对所述标题中每一词语，从预设的向量词典中查找该词语对应的词向量；其中，所述向量词典中保存有词语对应的词向量；所述获取所述每个候选关键词对应的词向量的步骤，可以包括：从所述向量词典中查找所述每个候选关键词对应的词向量。进一步的，所述预设的向量词典的生成步骤，可以包括：获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。进一步的，所述针对每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度的步骤，可以包括：针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。进一步的，将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词的步骤，可以包括：判断所确定的相似度是否大于预设阈值；将大于预设阈值的候选关键词，确定为所述正文的最终关键词。第二方面，提供了一种文档正文关键词提取装置，该装置可以包括：标题对应的词向量获取模块、候选关键词提取模块、候选关键词词向量获取模块、相似度确定模块和关键词确定模块；标题对应的词向量获取模块，用于获取目标文档的标题对应的词向量；候选关键词提取模块，用于对所述目标文档的正文进行关键词提取，获得所述文档正文中至少一个候选关键词；候选关键词词向量获取模块，用于获取所述每个候选关键词对应的词向量；相似度确定模块，用于针对每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的向量的相似度；关键词确定模块，用于将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词。进一步的，所述标题对应的词向量获取模块，可以包括：标题词语词向量获取子模块，用于获取目标文档的标题中的每个词语对应的词向量；标题对应的词向量确定子模块，用于对所述标题中所有词语的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。进一步的，所述标题词语词向量获取子模块，包括：标题分词单元和第一词向量查找单元；标题分词单元，用于对目标文档的标题进行分词处理，得到所述标题中的词语；第一词向量查找单元，用于针对所述标题中每一个词语，从预设的向量词典中查找该词语对应的词向量；其中，所述向量字典中保存有词语对应的词向量；所述候选关键词词向量获取模块，具体用于：从所述向量词典中查找所述每个候选关键词对应的词向量。进一步的，所述标题词语词向量获取子模块，还可以包括：预设的向量词典生成单元；所述预设的向量词典生成单元，包括：样本集合获取子单元、神经网络模型训练子单元、非样本文档关键词词向量获得子单元和向量字典生成子单元；样本集合获取子单元，用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；神经网络模型训练子单元，用于将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；非样本文档关键词词向量获得子单元，用于将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；向量字典生成子单元，用于存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。进一步的，所述相似度确定模块，具体用于：针对所述每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的余弦相似度。进一步的，所述关键词确定模块，包括：相似度判断子模块，用于判断所确定的相似度是否大于预设阈值；关键词确定子模块，用于将大于预设阈值的候选关键词，确定为所述正文的最终关键词。第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如下方法步骤；获取目标文档的标题对应的词向量；对所述目标文档的正文进行关键词提取，获得所述正文中至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词。第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一文档正文关键词的方法步骤。本发明实施例提供的一种文档正文关键词提取方法及装置，首先获取目标文档的标题对应的词向量和目标文档正文的候选关键词对应的词向量；然后，针对所述正文的每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度；最后，将相似度大于预设阈值的候选关键词，确定为所述目标文档正文的最终关键词。由于目标文档的标题是文档内容的提炼，即文档的标题简洁、清楚的表述了文档内容的主题。所以，本发明实施例通过分析文档正文的关键词与标题的相关性，推得所述正文关键词与文档主题的相关性，最终确定出与文档主题相关的文档正文关键词。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种文档正文关键词提取方法的一种流程示意图；图2为本发明实施例提供的一种文档正文关键词提取装置的结构示意图；图3为本发明实施例提供的一种标题对应的词向量获取模块的结构示意图；图4为本发明实施例提供的一种标题词语词向量获取子模块的结构示意图；图5为本发明实施例提供的一种预设的向量词典生成单元的结构示意图；图6为本发明实施例提供的一种关键词确定模块的结构示意图；图7为本发明实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了避免从文档正文中提取的关键词与文档的主题无关，本发明实施例提供了一种文档正文关键词提取方法及装置，以下分别进行详细说明。下面首先对本发明实施例提供的一种文档正文关键词提取方法进行介绍。参见图1所示，图1为本发明实施例的文档正文关键词提取方法的一种流程示意图，包括如下步骤：S110，获取目标文档的标题对应的词向量。本步骤可以先对目标文档的标题进行分词处理，得到所述文档标题中的每个词语；然后从预设的向量词典中，查找所述文档标题中每个词语对应的词向量；最后对查找到的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。具体的，可以采用预设的分词工具对目标文档的标题进行分词处理，获得所述目标文档标题中的每个词语。其中，所述分词工具可以使用基于隐马尔科夫HMM分词工具完成分词功能，还可以选择条件随机场CRF分词工具或其他类型的分词工具完成对文档标题的分词功能。例如，某目标文档的标题为“人类为直立行走称霸地球，付出的代价太惨痛了！”,根据预设的分词工具对目标文档标题进行分词处理，得到了词语：“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”。然后根据向量词典中词语和其对应的词向量的对应关系，从向量词典中，查找“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”对应的词向量。然后，将上述词语对应的词向量进行向量的平均值运算，得到一个与所述词语同维度的词向量，即为该目标文档标题对应的词向量。可以理解的是，向量词典中记录有绝大多数词语及每个词语唯一对应的词向量，但也存在词语及其词向量未记录在向量词典中的情况。当出现从文档正文或文档标题中得到的词语在所述预设的向量词典中没有查找到对应的词向量时，则将该词语舍弃，不予考虑其对文档正文关键词提取产生的影响。本发明实施例中，所述预设向量词典的生成步骤，可以包括：首先，获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；然后，将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；之后，将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；最后，存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。具体的，所述训练得到的向量词典是一个大小为N，词向量的维度为d的查找表，如表1所示。表1其中，N代表向量词典中关键词和关键词对应的词向量的个数，关键词和关键词对应的词向量是一种一一对应的关系；词向量的维度d代表每个词向量的位数，d的取值通常为64，n的取值介于1和64之间。S120，对目标文档的正文进行关键词提取，获得文档正文的至少一个候选关键词。具体的，对文档的正文进行关键词提取，可以采用基于TF-IDF方法或字典匹配方法，从目标文档正文中提取至少一个关键词作为候选关键词。可选的，对文档正文进行候选关键词提取，可以采用任何文档的关键词提取方法。例如，当对目标文档正文采用TF-IDF方法进行候选关键词提取时，首先通过分词工具对目标文档的正文进行分词，得到文档正文的词语；然后，统计每个词语在文档正文中出现的频率TF和每个词语对应的在文档正文中的普遍重要性的度量值IDF；再按每个词语对应的词频和逆文本频率的相乘得到的TF*IDF值对文档正文分词得到的词语进行排序；将上述排序后的所有词语，确定为目标文档的正文的候选关键词。上述对文档正文进行候选关键词提取的过程实际与现有技术采用TF-IDF方法提取关键词的过程完全相同，区别在于：在本实施例中，采用TF-IDF提取出的关键词不是目标文档的最终关键词，而是作为候选关键词。S130，获取所述每个候选关键词对应的词向量。在一种可能的实现方式中，获取所述每个候选关键词对应的词向量可以从预设的向量词典中直接查找得到。在另一种可能的实现方式中，可以通过将所述每个候选关键词输入到本实施例中介绍的训练后的神经网络模型，得到所述目标文档正文的每个候选关键词对应的词向量。S140，针对每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度。具体的，对目标文档正文的每个候选关键词，可以分别确定该候选关键词对应的词向量与标题对应的词向量的余弦相似度，其中，所述余弦相似度是根据公式1计算得到。Ci＝cosAi，B1其中，Ai为目标文档内容中第i个候选关键词对应的词向量，B为目标文档的标题对应的词向量，Ci为目标文档内容中第i个候选关键词对应的词向量和目标文档的标题对应的词向量的余弦相似度值，其中，i为大于1的正整数。S150，将相似度满足预设条件的候选关键词，确定为所述目标文档正文的最终关键词。本步骤中，可以先将确定出的每个候选关键词对应的词向量与标题对应的词向量的相似度与预设阈值进行比较，从中获得相似度大于预设阈值的候选关键词。然后，将所述相似度大于预设阈值的候选关键词，确定为所述目标文档正文的最终关键词。此外，本发明实施例中的预设阈值的取值范围可以为0.4到0.6。可以理解的是，先获得目标文本的标题对应的词向量还是先获得目标文档正文的候选关键词对应的词向量，对最后确定目标文档正文的关键词没有影响。因此，在本实施例中，执行步骤可以按照本发明具体实施方式中描述的顺序，也可以先执行S120和S130，再执行S110和S140等步骤，即本实施例中未对S110和S120、S130的执行顺序做限定。由上述的实施例可见，由于本发明实施例考虑了文档正文关键词与主题的相关性，因此能够避免对文档正文提取的关键词与文档的主题无关。进而，应用本发明实施例提取的文档正文关键词对目标文档进行检索时，能够准确地获取到与文档主题一致的文档正文。为了描述更加清楚，下面通过一个具体实施例对本发明实施例提供的一种文档正文关键词提取方法进行详细说明。实际应用中，在执行目标文档正文关键词的提取步骤之前，首先，通过对预设的神经网络模型进行训练，获得训练后的神经网络模型，利用训练后的神经网络模型得到所述样本集合和非样本集合文档关键词对应的词向量，即生成向量词典。具体的，在生成了所述向量词典之后，就可以对目标文档的正文进行最终关键词提取。例如：标题为“人类为直立行走称霸地球，付出的代价太惨痛了！”的目标文档，该目标文档的正文如下：“从一种行走状态转变为另一种行走状态时，不可避免地会出现一些前所未有的困难。在生物进化过程中，没有什么事情永远伟大光荣而正确。可以肯定地说，直立行走让人类付出了惨痛的代价：代价一：双脚和双腿不堪重负直立以后最有苦难言的应该是脚，身体的所有重量将不得不由这两片强大的底座承担，使得脚成了专业性极强的工具，除了负重与走路，再没别的事做——像其他灵长类动物那样灵活的抓握功能，都早被抛弃。代价二：对食盐的需求大大增加代价三：增加女性运动风险代价四：增加患病种类直立行走还直接提高了大脑的高度，导致大脑极易缺血，而要加强供血，心脏负担必然随之增加，使得人类易患心血管疾病。可能有人会说，既然直立行走有这么多麻烦，我们再爬回去怎么样？曾经沧海难为水，无论你的意志有多坚强，我们都不再是适合爬行生活的动物。要是你愿意尝试，还会发现更多的麻烦。最难搞定的是脑袋，爬行时脸部冲下，根本看不见前方。要想把脑袋强行抬起来，脖子就不得不具备更大的拉力，考虑到脑袋的重量，这种能量损失也非同小可。不管你是否承认，我们都再也爬不回去了。直立行走是自然选择赋予人类的金钥匙，不经意间触发了一个巨大的进化开关，从此启动了不可逆转的演变进程，持续刺激人体的其他特征不断出现，指引着人类大步向着文明迈进。”具体的，对上述目标文档的正文进行最终关键词提取的步骤，具体如下：步骤一、根据预设的分词工具对目标文档的标题进行分词处理，获得目标文档的标题中的词语。在本实例中，上述获得目标文档的标题中的词语是“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”。步骤二、从上述向量词典中查找上述目标文档的标题中的每个词语对应的词向量。具体的，根据向量词典中词语和其对应的词向量的对应关系，从向量词典中，查找“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”对应的词向量。这样，就获得了上述标题中的词语对应的词向量，假如，词语“人类”对应的词向量为：d1：-0.11853764，…dn：…，d64：-0.13707983。步骤三，对上述获取的目标文档的标题中所有词语对应的词向量取平均值，将求得的平均值作为上述标题对应的词向量。需要说明的是，在步骤三中，目标文档的标题中所有词语对应的词向量是指该词语可以从向量词典中查找到对应词向量的词语。当目标文档的标题中的词语在向量词典中没有对应的词向量时，则舍弃该词语。假如，上述标题对应的词向量为：d1：0.26192445，…dn：…，d64：0.18132684。步骤四，采用基于TF-IDF方法或字典匹配方法，从目标文档的正文中提取至少一个关键词作为候选关键词。例如：本实施例中，采用分词工具，对目标文档的正文进行分词处理，得到的目标文档的正文的候选关键词有“直立”、“行走”、“重量”、“能量”、“功能”等。步骤五，从上述向量词典中查找上述目标文档的正文的候选关键词对应的的词向量。步骤六，针对上述每个候选关键词，确定该候选关键词对应的词向量与步骤三中标题对应的词向量的相似度；在本实例中，将上述标题对应的词向量为：d1：0.26192445，…dn：…，d64：0.18132684，与“直立”、“行走”、“重量”、“功能”等候选关键词对应的词向量进行余弦相似度计算。步骤七，比较上述得到的余弦相似度，将大于预设阈值的目标文档的正文的候选关键词，确定为目标文档的正文的最终关键词。假设，在本实例中，目标文档的标题对应的词向量和目标文档的正文的候选关键词“重量”之间的余弦相似度为0.1；目标文档的标题对应的词向量和目标文档的正文的候选关键词“功能”之间的余弦相似度为0.8；其中，目标文档的标题对应的词向量和目标文档的正文的候选关键词“功能”之间的余弦相似度大于预设阈值0.5，则候选关键词“功能”为目标文档的正文的最终关键词。由上述的具体实施例可见，由于本发明实施例考虑了文档正文关键词与主题的相关性，因此能够避免对文档正文提取的关键词与文档的主题无关。进而，应用本发明实施例提取的文档正文关键词对目标文档进行检索时，能够准确地获取到与文档主题一致的文档正文。基于相同的技术构思，相应于图1所示方法实施例，本发明实施例还提供了一种文档正文关键词提取装置，如图2所示，该装置包括：标题对应的词向量获取模块210，用于获取目标文档的标题对应的词向量；候选关键词提取模块220，用于对目标文档的正文进行关键词提取，获得文档正文的至少一个候选关键词；候选关键词词向量获取模块230，用于获取所述每个候选关键词对应的词向量；相似度确定模块240，用于针对每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度；关键词确定模块250，用于将相似度满足预设条件的候选关键词，确定为所述目标文档正文的最终关键词。在本发明实施例中，参见图3所示，上述标题对应的词向量获取模块210，可以包括：标题词语词向量获取子模211和标题对应的词向量确定子模块212；标题词语词向量获取子模块211，用于获取所述文档标题中的每个词语对应的词向量；标题对应的词向量确定子模块212，用于对所述目标文档标题中所有词语对应的词向量取平均值，将求得的所述平均值作为目标文档的标题对应的词向量。在本发明实施例中，参见图4所示，上述目标文档的标题词语词向量获取子模块211，可以包括：标题分词子模块2111、第一词向量查找子模块2112和预设的向量词典生成单元2113；标题分词子模块2111，用于对目标文档的标题进行分词处理，得到所述目标文档的标题中的每个词语；第一词向量查找子模块2112，用于针对所述标题中每一个词语，从预设的向量词典中查找所述目标文档的标题中的每个词语对应的词向量；其中，所述预设的向量字典中保存有词语对应的词向量。所述候选关键词词向量获取模块，具体用于：从预设的向量字典中查找所述每个候选关键词对应的词向量。在本发明实施例中，参见图4所示，上述标题词语词向量获取子模块，还可以包括：预设的向量词典生成单元2113，其中，该单元由样本集合获取子单元2113.1、神经网络模型训练子单元2113.2、非样本文档关键词词向量获得子单元2113.3和向量字典生成子单元2113.4组成；样本集合获取子单元2113.1，用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；神经网络模型训练子单元2113.2，用于将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；非样本文档关键词词向量获得子单元2113.3，用于将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；向量字典生成子单元2113.4，用于存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。在本发明实施例中，所述相似度确定模块，具体用于：针对每个候选关键词，确定该候选候选关键词对应的词向量与标题对应的词向量的余弦相似度。在本发明实施例中，参见图6所示，上述关键词确定模块250，可以包括：相似度判断子模块251，用于判断所确定的相似度是否大于预设阈值；关键词确定子模块252，用于将大于预设阈值的候选关键词，确定为所述正文的最终关键词。上述本发明实施例提供的文档正文关键词提取装置的各个功能模块，可以通过图1所示的各方法步骤来实现。由上述的实施例可见，由于本发明实施例考虑了文档正文关键词与主题的相关性，因此能够避免对文档正文提取的关键词与文档的主题无关。进而，应用本发明实施例提取的文档正文关键词对目标文档进行检索时，能够准确地获取到与文档主题一致的文档内容。本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，存储器703，用于存放计算机程序；处理器701，用于执行存储器703上所存放的程序时，实现本发明实施例提供的一种文档正文关键词提取方法。具体的，上述一种文档正文关键词提取方法，包括：获取目标文档的标题对应的词向量；对目标文档的正文进行关键词提取，获得文档正文的至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对每个候选关键词，确定该候选关键词对应的词向量与标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述目标文档正文的最终关键词。关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1、2和3所示的方法实施例，在此不做赘述。由上述的实施例可见，由于本发明实施例考虑了文档正文关键词与主题的相关性，因此能够避免对文档正文提取的关键词与文档的主题无关。进而，应用本发明实施例提取的文档正文关键词对目标文档进行检索时，能够准确地获取到与文档主题一致的文档正文。另外，处理器701执行存储器703上所存放的程序而实现的一种文档正文关键词提取方法的其他实现方式，与前述方法实施例部分所提及的实现方式相同，这里也不再赘述。上述电子设备提到的通信总线可以是外设部件互连标准PeripheralComponentInterconnect，PCI总线或扩展工业标准结构ExtendedIndustryStandardArchitecture，EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口702用于上述电子设备与其他设备之间的通信。存储器703可以包括随机存取存储器RandomAccessMemory，RAM，也可以包括非易失性存储器Non-VolatileMemory，NVM，例如至少一个磁盘存储器。可选的，存储器303还可以是至少一个位于远离前述处理器的存储装置。上述的处理器701可以是通用处理器，包括中央处理器CentralProcessingUnit，CPU、网络处理器NetworkProcessor，NP等；还可以是数字信号处理器DigitalSignalProcessing，DSP、专用集成电路ApplicationSpecificIntegratedCircuit，ASIC、现场可编程门阵列Field-ProgrammableGateArray，FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文档正文关键词提取方法。在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线例如同轴电缆、光纤、数字用户线DSL或无线例如红外、无线、微波等方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带、光介质例如，DVD、或者半导体介质例如固态硬盘SolidStateDiskSSD等。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备以及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

权利要求：1.一种文档正文关键词提取方法，其特征在于，所述方法包括：获取目标文档的标题对应的词向量；对所述目标文档的正文进行关键词提取，获得所述正文中至少一个候选关键词；获取所述每个候选关键词对应的词向量；针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度；将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词。2.根据权利要求1所述的方法，其特征在于，所述获取目标文档的标题对应的词向量的步骤，包括：获取目标文档的标题中的每个词语对应的词向量；对所述标题中所有词语对应的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。3.根据权利要求2所述的方法，其特征在于，所述获取目标文档的标题中的每个词语对应的词向量的步骤，包括：对目标文档的标题进行分词处理，得到所述标题中的词语；针对所述标题中每一词语，从预设的向量词典中查找该词语对应的词向量；其中，所述向量词典中保存有词语对应的词向量；所述获取所述每个候选关键词对应的词向量的步骤，包括：从所述向量词典中查找所述每个候选关键词对应的词向量。4.根据权利要求3所述的方法，其特征在于，所述预设的向量词典的生成步骤，包括：获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。5.根据权利要求1所述的方法，其特征在于，所述针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度的步骤，包括：针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。6.根据权利要求1所述的方法，其特征在于，将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词的步骤，包括：判断所确定的相似度是否大于预设阈值；将大于预设阈值的候选关键词，确定为所述正文的最终关键词。7.一种文档正文关键词提取装置，其特征在于，所述装置包括：标题对应的词向量获取模块，用于获取目标文档的标题对应的词向量；候选关键词提取模块，用于对所述目标文档的正文进行关键词提取，获得所述正文中至少一个候选关键词；候选关键词词向量获取模块，用于获取所述每个候选关键词对应的词向量；相似度确定模块，用于针对每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的相似度；关键词确定模块，用于将相似度满足预设条件的候选关键词，确定为所述正文的最终关键词。8.根据权利要求7所述的装置，其特征在于，所述标题对应的词向量获取模块，包括：标题词语词向量获取子模块，用于获取目标文档的标题中的每个词语对应的词向量；标题对应的词向量确定子模块，用于对所述标题中所有词语对应的词向量取平均值，将求得的所述平均值作为所述标题对应的词向量。9.根据权利要求8所述的装置，其特征在于，所述标题词语词向量获取子模块，包括：标题分词单元和第一词向量查找单元；标题分词单元，用于对目标文档的标题进行分词处理，得到所述标题中的词语；第一词向量查找单元，用于针对所述标题中每一个词语，从预设的向量词典中查找该词语对应的词向量；其中，所述向量词典中保存有词语对应的词向量；所述候选关键词词向量获取模块，具体用于：从所述向量词典中查找所述每个候选关键词对应的词向量。10.根据权利要求9所述的装置，其特征在于，所述标题词语词向量获取子模块，还包括：预设的向量词典生成单元；所述预设的向量词典成单元，包括：样本集合获取子单元、神经网络模型训练子单元、非样本文档关键词词向量获得子单元和向量字典生成子单元；样本集合获取子单元，用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合；神经网络模型训练子单元，用于将所述样本集合输入到预设神经网络模型，对所述神经网络模型进行训练，得到训练后的神经网络模型；非样本文档关键词词向量获得子单元，用于将非样本文档关键词输入所述训练后的神经网络模型，获得所述非样本文档关键词对应的词向量；向量字典生成子单元，用于存储所述样本文档关键词和所述样本文档关键词对应的词向量，以及所述非样本文档关键词和所述非样本文档关键词对应的词向量，生成向量词典。11.根据权利要求7所述的装置，其特征在于，所述相似度确定模块，具体用于：针对所述每个候选关键词，确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。12.根据权利要求7所述的装置，其特征在于，所述关键词确定模块，包括：相似度判断子模块，用于判断所确定的相似度是否大于预设阈值；关键词确定子模块，用于将大于预设阈值的候选关键词，确定为所述正文的最终关键词。13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

百度查询：北京奇艺世纪科技有限公司一种文档正文关键词提取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

下一篇：一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

相关技术

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

方法相关技术

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

正文相关技术

一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

一种网页正文抽取方法、装置、设备及存储介质_中国电子信息产业集团有限公司第六研究所_202110707708.0

匹配正文的方法、装置、设备、存储介质以及程序产品_北京百度网讯科技有限公司_202110209688.4

一种网页文章标题和正文的自动识别方法及装置_北京粉笔蓝天科技有限公司_202310211865.1

网页正文的提取方法、装置、服务器和存储介质_深圳市朱墨科技有限公司_201911329406.3

一种web网页的正文内容提取方法、装置、设备及介质_杭州安恒信息技术股份有限公司_202010032139.X

一种网页正文的识别处理方法及装置_奇安信科技集团股份有限公司_201910945459.1

一种校正文本的方法、装置及设备_中国移动通信集团江苏有限公司_201811509815.7

融合标题和正文双向互注意力的涉法新闻相关性分析方法_昆明理工大学_202011055105.9

一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7

关键词相关技术

适用于多链路的关键BSS参数管理方法及相关装置_华为技术有限公司_202211613806.9

一种针对语音关键词分类网络的对抗样本攻击方法_东南数字经济发展研究院_202011196711.2

可识别声源位置的关键词语音唤醒系统及方法及移动终端_钰太芯微电子科技(上海)有限公司_201510192268.4

热词抑制_谷歌有限责任公司_201980034189.7

用于开/关键控（OOK）通信的位同步_恩智浦有限公司_201910336769.3

一种关键点定位方法、装置及终端_腾讯科技(深圳)有限公司_201910380714.2

基于代表词对的RESTful API文档主题分布提取方法_浙江工业大学_202110570270.6

一种基于深度学习和词袋模型的闭环检测方法_北京工业大学_202110024649.7

可定制的低延时命令词识别方法及装置_普强时代(珠海横琴)信息技术有限公司_202110865579.8

一种自然语言文本和数学语言文本的混合词嵌入方法_华中师范大学_202210469691.4

龙图腾网&IPTOP

【发明授权】一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务