买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7 

申请/专利权人:北京奇艺世纪科技有限公司

申请日:2018-08-07

公开(公告)日:2023-09-08

公开(公告)号:CN109190111B

主分类号:G06F40/258

分类号:G06F40/258;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2023.09.08#授权;2019.02.12#实质审查的生效;2019.01.11#公开

摘要:本发明实施例提供了一种文档正文关键词提取方法及装置。该方法包括:获取目标文档的标题对应的词向量;对所述目标文档的正文进行关键词提取,获得文档正文的至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述目标文档正文的最终关键词。应用本发明实施例提取的文档正文关键词对目标文档进行检索时,能够准确地获取到与目标文档主题一致的正文关键词。

主权项:1.一种文档正文关键词提取方法,其特征在于,所述方法包括:获取目标文档的标题对应的词向量;对所述目标文档的正文进行关键词提取,获得所述正文中至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词;其中,预设条件为相似度大于预设阈值;所述获取目标文档的标题对应的词向量的步骤,包括:获取目标文档的标题中的每个词语对应的词向量;对所述标题中所有词语对应的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。

全文数据:一种文档正文关键词提取方法及装置技术领域本发明涉及自然语言处理领域,特别是涉及一种文档正文关键词提取方法及装置。背景技术随着信息时代的发展,网络上文本信息的爆炸式增长,如何对大量信息进行有效地组织、分类和检索已成为多数网络用户越来越关心的问题。关键词高度概括了文本的主要内容,显然关键词的提取方法是信息检索的核心问题。同时,关键词提取在自动文献、信息检索、文本分类、文本聚类等方面有至关重要的作用。目前,文档正文关键词提取方法中主要包含四个步骤:1.利用分词工具,对文档正文进行分词处理,得到文档正文的词语;2.统计每个文档正文的词语在文档正文中出现的频率TFTermfrequency,词频和每个词语对应的在文档正文中的普遍重要性的度量值IDFInversedocumentfrequency,逆文本频率;3.按每个词语对应的词频和逆文本频率的相乘得到的TF*IDF值对文档正文分词得到的词语进行排序;4.按照预定的目标文档关键词个数要求,将排序靠前的几个词语确定为目标文档正文的关键词。显然,现有技术的文档正文关键词提取方法只是针对文档的正文提取关键词,提取结果可能会出现与文档主题无关的关键词结果。发明内容本发明实施例的目的在于提供一种文档正文关键词提取方法及装置,以避免从文档正文中提取的关键词与文档主题无关。具体技术方案如下:第一方面,提供了一种文档正文关键词提取方法,该方法包括:获取目标文档的标题对应的词向量;对目标文档的正文进行关键词提取,获得文档正文的至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词。进一步的,所述获取目标文档的标题对应的词向量的步骤,可以包括:获取目标文档的标题中的每个词语对应的词向量;对所述标题中所有词语对应的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。进一步的,所述获取所述文档标题中的每个词语对应的词向量的步骤,可以包括:对目标文档的标题进行分词处理,得到所述标题中的每个词语;针对所述标题中每一词语,从预设的向量词典中查找该词语对应的词向量;其中,所述向量词典中保存有词语对应的词向量;所述获取所述每个候选关键词对应的词向量的步骤,可以包括:从所述向量词典中查找所述每个候选关键词对应的词向量。进一步的,所述预设的向量词典的生成步骤,可以包括:获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。进一步的,所述针对每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度的步骤,可以包括:针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。进一步的,将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词的步骤,可以包括:判断所确定的相似度是否大于预设阈值;将大于预设阈值的候选关键词,确定为所述正文的最终关键词。第二方面,提供了一种文档正文关键词提取装置,该装置可以包括:标题对应的词向量获取模块、候选关键词提取模块、候选关键词词向量获取模块、相似度确定模块和关键词确定模块;标题对应的词向量获取模块,用于获取目标文档的标题对应的词向量;候选关键词提取模块,用于对所述目标文档的正文进行关键词提取,获得所述文档正文中至少一个候选关键词;候选关键词词向量获取模块,用于获取所述每个候选关键词对应的词向量;相似度确定模块,用于针对每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的向量的相似度;关键词确定模块,用于将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词。进一步的,所述标题对应的词向量获取模块,可以包括:标题词语词向量获取子模块,用于获取目标文档的标题中的每个词语对应的词向量;标题对应的词向量确定子模块,用于对所述标题中所有词语的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。进一步的,所述标题词语词向量获取子模块,包括:标题分词单元和第一词向量查找单元;标题分词单元,用于对目标文档的标题进行分词处理,得到所述标题中的词语;第一词向量查找单元,用于针对所述标题中每一个词语,从预设的向量词典中查找该词语对应的词向量;其中,所述向量字典中保存有词语对应的词向量;所述候选关键词词向量获取模块,具体用于:从所述向量词典中查找所述每个候选关键词对应的词向量。进一步的,所述标题词语词向量获取子模块,还可以包括:预设的向量词典生成单元;所述预设的向量词典生成单元,包括:样本集合获取子单元、神经网络模型训练子单元、非样本文档关键词词向量获得子单元和向量字典生成子单元;样本集合获取子单元,用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;神经网络模型训练子单元,用于将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;非样本文档关键词词向量获得子单元,用于将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;向量字典生成子单元,用于存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。进一步的,所述相似度确定模块,具体用于:针对所述每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的余弦相似度。进一步的,所述关键词确定模块,包括:相似度判断子模块,用于判断所确定的相似度是否大于预设阈值;关键词确定子模块,用于将大于预设阈值的候选关键词,确定为所述正文的最终关键词。第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如下方法步骤;获取目标文档的标题对应的词向量;对所述目标文档的正文进行关键词提取,获得所述正文中至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词。第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一文档正文关键词的方法步骤。本发明实施例提供的一种文档正文关键词提取方法及装置,首先获取目标文档的标题对应的词向量和目标文档正文的候选关键词对应的词向量;然后,针对所述正文的每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度;最后,将相似度大于预设阈值的候选关键词,确定为所述目标文档正文的最终关键词。由于目标文档的标题是文档内容的提炼,即文档的标题简洁、清楚的表述了文档内容的主题。所以,本发明实施例通过分析文档正文的关键词与标题的相关性,推得所述正文关键词与文档主题的相关性,最终确定出与文档主题相关的文档正文关键词。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种文档正文关键词提取方法的一种流程示意图;图2为本发明实施例提供的一种文档正文关键词提取装置的结构示意图;图3为本发明实施例提供的一种标题对应的词向量获取模块的结构示意图;图4为本发明实施例提供的一种标题词语词向量获取子模块的结构示意图;图5为本发明实施例提供的一种预设的向量词典生成单元的结构示意图;图6为本发明实施例提供的一种关键词确定模块的结构示意图;图7为本发明实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了避免从文档正文中提取的关键词与文档的主题无关,本发明实施例提供了一种文档正文关键词提取方法及装置,以下分别进行详细说明。下面首先对本发明实施例提供的一种文档正文关键词提取方法进行介绍。参见图1所示,图1为本发明实施例的文档正文关键词提取方法的一种流程示意图,包括如下步骤:S110,获取目标文档的标题对应的词向量。本步骤可以先对目标文档的标题进行分词处理,得到所述文档标题中的每个词语;然后从预设的向量词典中,查找所述文档标题中每个词语对应的词向量;最后对查找到的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。具体的,可以采用预设的分词工具对目标文档的标题进行分词处理,获得所述目标文档标题中的每个词语。其中,所述分词工具可以使用基于隐马尔科夫HMM分词工具完成分词功能,还可以选择条件随机场CRF分词工具或其他类型的分词工具完成对文档标题的分词功能。例如,某目标文档的标题为“人类为直立行走称霸地球,付出的代价太惨痛了!”,根据预设的分词工具对目标文档标题进行分词处理,得到了词语:“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”。然后根据向量词典中词语和其对应的词向量的对应关系,从向量词典中,查找“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”对应的词向量。然后,将上述词语对应的词向量进行向量的平均值运算,得到一个与所述词语同维度的词向量,即为该目标文档标题对应的词向量。可以理解的是,向量词典中记录有绝大多数词语及每个词语唯一对应的词向量,但也存在词语及其词向量未记录在向量词典中的情况。当出现从文档正文或文档标题中得到的词语在所述预设的向量词典中没有查找到对应的词向量时,则将该词语舍弃,不予考虑其对文档正文关键词提取产生的影响。本发明实施例中,所述预设向量词典的生成步骤,可以包括:首先,获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;然后,将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;之后,将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;最后,存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。具体的,所述训练得到的向量词典是一个大小为N,词向量的维度为d的查找表,如表1所示。表1其中,N代表向量词典中关键词和关键词对应的词向量的个数,关键词和关键词对应的词向量是一种一一对应的关系;词向量的维度d代表每个词向量的位数,d的取值通常为64,n的取值介于1和64之间。S120,对目标文档的正文进行关键词提取,获得文档正文的至少一个候选关键词。具体的,对文档的正文进行关键词提取,可以采用基于TF-IDF方法或字典匹配方法,从目标文档正文中提取至少一个关键词作为候选关键词。可选的,对文档正文进行候选关键词提取,可以采用任何文档的关键词提取方法。例如,当对目标文档正文采用TF-IDF方法进行候选关键词提取时,首先通过分词工具对目标文档的正文进行分词,得到文档正文的词语;然后,统计每个词语在文档正文中出现的频率TF和每个词语对应的在文档正文中的普遍重要性的度量值IDF;再按每个词语对应的词频和逆文本频率的相乘得到的TF*IDF值对文档正文分词得到的词语进行排序;将上述排序后的所有词语,确定为目标文档的正文的候选关键词。上述对文档正文进行候选关键词提取的过程实际与现有技术采用TF-IDF方法提取关键词的过程完全相同,区别在于:在本实施例中,采用TF-IDF提取出的关键词不是目标文档的最终关键词,而是作为候选关键词。S130,获取所述每个候选关键词对应的词向量。在一种可能的实现方式中,获取所述每个候选关键词对应的词向量可以从预设的向量词典中直接查找得到。在另一种可能的实现方式中,可以通过将所述每个候选关键词输入到本实施例中介绍的训练后的神经网络模型,得到所述目标文档正文的每个候选关键词对应的词向量。S140,针对每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度。具体的,对目标文档正文的每个候选关键词,可以分别确定该候选关键词对应的词向量与标题对应的词向量的余弦相似度,其中,所述余弦相似度是根据公式1计算得到。Ci=cosAi,B1其中,Ai为目标文档内容中第i个候选关键词对应的词向量,B为目标文档的标题对应的词向量,Ci为目标文档内容中第i个候选关键词对应的词向量和目标文档的标题对应的词向量的余弦相似度值,其中,i为大于1的正整数。S150,将相似度满足预设条件的候选关键词,确定为所述目标文档正文的最终关键词。本步骤中,可以先将确定出的每个候选关键词对应的词向量与标题对应的词向量的相似度与预设阈值进行比较,从中获得相似度大于预设阈值的候选关键词。然后,将所述相似度大于预设阈值的候选关键词,确定为所述目标文档正文的最终关键词。此外,本发明实施例中的预设阈值的取值范围可以为0.4到0.6。可以理解的是,先获得目标文本的标题对应的词向量还是先获得目标文档正文的候选关键词对应的词向量,对最后确定目标文档正文的关键词没有影响。因此,在本实施例中,执行步骤可以按照本发明具体实施方式中描述的顺序,也可以先执行S120和S130,再执行S110和S140等步骤,即本实施例中未对S110和S120、S130的执行顺序做限定。由上述的实施例可见,由于本发明实施例考虑了文档正文关键词与主题的相关性,因此能够避免对文档正文提取的关键词与文档的主题无关。进而,应用本发明实施例提取的文档正文关键词对目标文档进行检索时,能够准确地获取到与文档主题一致的文档正文。为了描述更加清楚,下面通过一个具体实施例对本发明实施例提供的一种文档正文关键词提取方法进行详细说明。实际应用中,在执行目标文档正文关键词的提取步骤之前,首先,通过对预设的神经网络模型进行训练,获得训练后的神经网络模型,利用训练后的神经网络模型得到所述样本集合和非样本集合文档关键词对应的词向量,即生成向量词典。具体的,在生成了所述向量词典之后,就可以对目标文档的正文进行最终关键词提取。例如:标题为“人类为直立行走称霸地球,付出的代价太惨痛了!”的目标文档,该目标文档的正文如下:“从一种行走状态转变为另一种行走状态时,不可避免地会出现一些前所未有的困难。在生物进化过程中,没有什么事情永远伟大光荣而正确。可以肯定地说,直立行走让人类付出了惨痛的代价:代价一:双脚和双腿不堪重负直立以后最有苦难言的应该是脚,身体的所有重量将不得不由这两片强大的底座承担,使得脚成了专业性极强的工具,除了负重与走路,再没别的事做——像其他灵长类动物那样灵活的抓握功能,都早被抛弃。代价二:对食盐的需求大大增加代价三:增加女性运动风险代价四:增加患病种类直立行走还直接提高了大脑的高度,导致大脑极易缺血,而要加强供血,心脏负担必然随之增加,使得人类易患心血管疾病。可能有人会说,既然直立行走有这么多麻烦,我们再爬回去怎么样?曾经沧海难为水,无论你的意志有多坚强,我们都不再是适合爬行生活的动物。要是你愿意尝试,还会发现更多的麻烦。最难搞定的是脑袋,爬行时脸部冲下,根本看不见前方。要想把脑袋强行抬起来,脖子就不得不具备更大的拉力,考虑到脑袋的重量,这种能量损失也非同小可。不管你是否承认,我们都再也爬不回去了。直立行走是自然选择赋予人类的金钥匙,不经意间触发了一个巨大的进化开关,从此启动了不可逆转的演变进程,持续刺激人体的其他特征不断出现,指引着人类大步向着文明迈进。”具体的,对上述目标文档的正文进行最终关键词提取的步骤,具体如下:步骤一、根据预设的分词工具对目标文档的标题进行分词处理,获得目标文档的标题中的词语。在本实例中,上述获得目标文档的标题中的词语是“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”。步骤二、从上述向量词典中查找上述目标文档的标题中的每个词语对应的词向量。具体的,根据向量词典中词语和其对应的词向量的对应关系,从向量词典中,查找“人类”、“直立”、“行走”、“称霸”、“地球”、“付出”、“的”、“代价”、“太”、“惨痛”和“了”对应的词向量。这样,就获得了上述标题中的词语对应的词向量,假如,词语“人类”对应的词向量为:d1:-0.11853764,…dn:…,d64:-0.13707983。步骤三,对上述获取的目标文档的标题中所有词语对应的词向量取平均值,将求得的平均值作为上述标题对应的词向量。需要说明的是,在步骤三中,目标文档的标题中所有词语对应的词向量是指该词语可以从向量词典中查找到对应词向量的词语。当目标文档的标题中的词语在向量词典中没有对应的词向量时,则舍弃该词语。假如,上述标题对应的词向量为:d1:0.26192445,…dn:…,d64:0.18132684。步骤四,采用基于TF-IDF方法或字典匹配方法,从目标文档的正文中提取至少一个关键词作为候选关键词。例如:本实施例中,采用分词工具,对目标文档的正文进行分词处理,得到的目标文档的正文的候选关键词有“直立”、“行走”、“重量”、“能量”、“功能”等。步骤五,从上述向量词典中查找上述目标文档的正文的候选关键词对应的的词向量。步骤六,针对上述每个候选关键词,确定该候选关键词对应的词向量与步骤三中标题对应的词向量的相似度;在本实例中,将上述标题对应的词向量为:d1:0.26192445,…dn:…,d64:0.18132684,与“直立”、“行走”、“重量”、“功能”等候选关键词对应的词向量进行余弦相似度计算。步骤七,比较上述得到的余弦相似度,将大于预设阈值的目标文档的正文的候选关键词,确定为目标文档的正文的最终关键词。假设,在本实例中,目标文档的标题对应的词向量和目标文档的正文的候选关键词“重量”之间的余弦相似度为0.1;目标文档的标题对应的词向量和目标文档的正文的候选关键词“功能”之间的余弦相似度为0.8;其中,目标文档的标题对应的词向量和目标文档的正文的候选关键词“功能”之间的余弦相似度大于预设阈值0.5,则候选关键词“功能”为目标文档的正文的最终关键词。由上述的具体实施例可见,由于本发明实施例考虑了文档正文关键词与主题的相关性,因此能够避免对文档正文提取的关键词与文档的主题无关。进而,应用本发明实施例提取的文档正文关键词对目标文档进行检索时,能够准确地获取到与文档主题一致的文档正文。基于相同的技术构思,相应于图1所示方法实施例,本发明实施例还提供了一种文档正文关键词提取装置,如图2所示,该装置包括:标题对应的词向量获取模块210,用于获取目标文档的标题对应的词向量;候选关键词提取模块220,用于对目标文档的正文进行关键词提取,获得文档正文的至少一个候选关键词;候选关键词词向量获取模块230,用于获取所述每个候选关键词对应的词向量;相似度确定模块240,用于针对每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度;关键词确定模块250,用于将相似度满足预设条件的候选关键词,确定为所述目标文档正文的最终关键词。在本发明实施例中,参见图3所示,上述标题对应的词向量获取模块210,可以包括:标题词语词向量获取子模211和标题对应的词向量确定子模块212;标题词语词向量获取子模块211,用于获取所述文档标题中的每个词语对应的词向量;标题对应的词向量确定子模块212,用于对所述目标文档标题中所有词语对应的词向量取平均值,将求得的所述平均值作为目标文档的标题对应的词向量。在本发明实施例中,参见图4所示,上述目标文档的标题词语词向量获取子模块211,可以包括:标题分词子模块2111、第一词向量查找子模块2112和预设的向量词典生成单元2113;标题分词子模块2111,用于对目标文档的标题进行分词处理,得到所述目标文档的标题中的每个词语;第一词向量查找子模块2112,用于针对所述标题中每一个词语,从预设的向量词典中查找所述目标文档的标题中的每个词语对应的词向量;其中,所述预设的向量字典中保存有词语对应的词向量。所述候选关键词词向量获取模块,具体用于:从预设的向量字典中查找所述每个候选关键词对应的词向量。在本发明实施例中,参见图4所示,上述标题词语词向量获取子模块,还可以包括:预设的向量词典生成单元2113,其中,该单元由样本集合获取子单元2113.1、神经网络模型训练子单元2113.2、非样本文档关键词词向量获得子单元2113.3和向量字典生成子单元2113.4组成;样本集合获取子单元2113.1,用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;神经网络模型训练子单元2113.2,用于将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;非样本文档关键词词向量获得子单元2113.3,用于将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;向量字典生成子单元2113.4,用于存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。在本发明实施例中,所述相似度确定模块,具体用于:针对每个候选关键词,确定该候选候选关键词对应的词向量与标题对应的词向量的余弦相似度。在本发明实施例中,参见图6所示,上述关键词确定模块250,可以包括:相似度判断子模块251,用于判断所确定的相似度是否大于预设阈值;关键词确定子模块252,用于将大于预设阈值的候选关键词,确定为所述正文的最终关键词。上述本发明实施例提供的文档正文关键词提取装置的各个功能模块,可以通过图1所示的各方法步骤来实现。由上述的实施例可见,由于本发明实施例考虑了文档正文关键词与主题的相关性,因此能够避免对文档正文提取的关键词与文档的主题无关。进而,应用本发明实施例提取的文档正文关键词对目标文档进行检索时,能够准确地获取到与文档主题一致的文档内容。本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,存储器703,用于存放计算机程序;处理器701,用于执行存储器703上所存放的程序时,实现本发明实施例提供的一种文档正文关键词提取方法。具体的,上述一种文档正文关键词提取方法,包括:获取目标文档的标题对应的词向量;对目标文档的正文进行关键词提取,获得文档正文的至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对每个候选关键词,确定该候选关键词对应的词向量与标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述目标文档正文的最终关键词。关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1、2和3所示的方法实施例,在此不做赘述。由上述的实施例可见,由于本发明实施例考虑了文档正文关键词与主题的相关性,因此能够避免对文档正文提取的关键词与文档的主题无关。进而,应用本发明实施例提取的文档正文关键词对目标文档进行检索时,能够准确地获取到与文档主题一致的文档正文。另外,处理器701执行存储器703上所存放的程序而实现的一种文档正文关键词提取方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。上述电子设备提到的通信总线可以是外设部件互连标准PeripheralComponentInterconnect,PCI总线或扩展工业标准结构ExtendedIndustryStandardArchitecture,EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口702用于上述电子设备与其他设备之间的通信。存储器703可以包括随机存取存储器RandomAccessMemory,RAM,也可以包括非易失性存储器Non-VolatileMemory,NVM,例如至少一个磁盘存储器。可选的,存储器303还可以是至少一个位于远离前述处理器的存储装置。上述的处理器701可以是通用处理器,包括中央处理器CentralProcessingUnit,CPU、网络处理器NetworkProcessor,NP等;还可以是数字信号处理器DigitalSignalProcessing,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现场可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文档正文关键词提取方法。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线例如同轴电缆、光纤、数字用户线DSL或无线例如红外、无线、微波等方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带、光介质例如,DVD、或者半导体介质例如固态硬盘SolidStateDiskSSD等。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备以及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

权利要求:1.一种文档正文关键词提取方法,其特征在于,所述方法包括:获取目标文档的标题对应的词向量;对所述目标文档的正文进行关键词提取,获得所述正文中至少一个候选关键词;获取所述每个候选关键词对应的词向量;针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度;将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词。2.根据权利要求1所述的方法,其特征在于,所述获取目标文档的标题对应的词向量的步骤,包括:获取目标文档的标题中的每个词语对应的词向量;对所述标题中所有词语对应的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。3.根据权利要求2所述的方法,其特征在于,所述获取目标文档的标题中的每个词语对应的词向量的步骤,包括:对目标文档的标题进行分词处理,得到所述标题中的词语;针对所述标题中每一词语,从预设的向量词典中查找该词语对应的词向量;其中,所述向量词典中保存有词语对应的词向量;所述获取所述每个候选关键词对应的词向量的步骤,包括:从所述向量词典中查找所述每个候选关键词对应的词向量。4.根据权利要求3所述的方法,其特征在于,所述预设的向量词典的生成步骤,包括:获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。5.根据权利要求1所述的方法,其特征在于,所述针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度的步骤,包括:针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。6.根据权利要求1所述的方法,其特征在于,将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词的步骤,包括:判断所确定的相似度是否大于预设阈值;将大于预设阈值的候选关键词,确定为所述正文的最终关键词。7.一种文档正文关键词提取装置,其特征在于,所述装置包括:标题对应的词向量获取模块,用于获取目标文档的标题对应的词向量;候选关键词提取模块,用于对所述目标文档的正文进行关键词提取,获得所述正文中至少一个候选关键词;候选关键词词向量获取模块,用于获取所述每个候选关键词对应的词向量;相似度确定模块,用于针对每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的相似度;关键词确定模块,用于将相似度满足预设条件的候选关键词,确定为所述正文的最终关键词。8.根据权利要求7所述的装置,其特征在于,所述标题对应的词向量获取模块,包括:标题词语词向量获取子模块,用于获取目标文档的标题中的每个词语对应的词向量;标题对应的词向量确定子模块,用于对所述标题中所有词语对应的词向量取平均值,将求得的所述平均值作为所述标题对应的词向量。9.根据权利要求8所述的装置,其特征在于,所述标题词语词向量获取子模块,包括:标题分词单元和第一词向量查找单元;标题分词单元,用于对目标文档的标题进行分词处理,得到所述标题中的词语;第一词向量查找单元,用于针对所述标题中每一个词语,从预设的向量词典中查找该词语对应的词向量;其中,所述向量词典中保存有词语对应的词向量;所述候选关键词词向量获取模块,具体用于:从所述向量词典中查找所述每个候选关键词对应的词向量。10.根据权利要求9所述的装置,其特征在于,所述标题词语词向量获取子模块,还包括:预设的向量词典生成单元;所述预设的向量词典成单元,包括:样本集合获取子单元、神经网络模型训练子单元、非样本文档关键词词向量获得子单元和向量字典生成子单元;样本集合获取子单元,用于获取由预设文档关键词和所述预设文档关键词对应的词向量组成的样本集合;神经网络模型训练子单元,用于将所述样本集合输入到预设神经网络模型,对所述神经网络模型进行训练,得到训练后的神经网络模型;非样本文档关键词词向量获得子单元,用于将非样本文档关键词输入所述训练后的神经网络模型,获得所述非样本文档关键词对应的词向量;向量字典生成子单元,用于存储所述样本文档关键词和所述样本文档关键词对应的词向量,以及所述非样本文档关键词和所述非样本文档关键词对应的词向量,生成向量词典。11.根据权利要求7所述的装置,其特征在于,所述相似度确定模块,具体用于:针对所述每个候选关键词,确定该候选关键词对应的词向量与所述标题对应的词向量的余弦相似度。12.根据权利要求7所述的装置,其特征在于,所述关键词确定模块,包括:相似度判断子模块,用于判断所确定的相似度是否大于预设阈值;关键词确定子模块,用于将大于预设阈值的候选关键词,确定为所述正文的最终关键词。13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。

百度查询: 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。