买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】话题分类评判方法及装置_北京国双科技有限公司_201710656550.2 

申请/专利权人:北京国双科技有限公司

申请日:2017-08-03

公开(公告)日:2021-04-27

公开(公告)号:CN110147443B

主分类号:G06F16/35(20190101)

分类号:G06F16/35(20190101);G06F40/216(20200101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.27#授权;2019.09.13#实质审查的生效;2019.08.23#著录事项变更;2019.08.20#公开

摘要:本发明提供了一种话题分类评判方法及装置,获取每个话题的关键词,对于任意两个话题,确定重复关键词的数量,根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,根据所述重复度,确定所述任意两个话题的分类是否合理。本发明话题分类评判方法及装置,实现了对话题分类合理性的有效评判,为提高了话题分类合理性提供了依据。

主权项:1.一种话题分类评判方法,其特征在于,包括:获取每个话题的关键词;对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;统计所述任意两个话题的关键词总数;根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值,其中,所述关键词总数为所述任意两个话题中不同关键词的总数;根据所述重复度,确定所述任意两个话题的分类是否合理;当所述任意两个话题的分类不合理时,根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;根据所述元素值,计算每个节点的点度中心度值;将点度中心度值大于预设阈值的节点确定为分歧节点,并确定所述分歧节点中的关键词为分歧关键词。

全文数据:话题分类评判方法及装置技术领域本发明涉及信息处理领域,更具体的说,涉及话题分类评判方法及装置。背景技术随着互联网技术的发展,诸如博客、微博、论坛、新闻评论以及各类网站的投诉与建议板块等各种话题互动平台应运而生,用户可以针对各类话题发布自己的观点与评论。现有话题互动平台上的话题种类,通常是根据具体业务需要直接进行划分的,然而不同的具体业务之间可能并没有明确的界限划分,例如“住房规划”与“民生政策”这两个话题,由于目前老百姓的住房问题与民生问题紧密相连,所以这两项内容之间并没有明确的界限划分,从而导致“住房规划”与“民生政策”这两个话题的划分较为模糊,缺乏合理性,当用户想要对住房拆迁问题进行关注或留言时,并不能快速准确地定位到所要关注或留言的话题类别到底是“住房规划”还是“民生政策”。也即,目前并没有一种切实有效的技术手段能够对话题分类的合理性进行评判,以提高话题分类的合理性。因此,目前迫切需要一种能够提高话题分类合理性的技术方案。发明内容有鉴于此,本发明提供了一种话题分类评判方法及装置,以解决目前无法有效评判话题分类合理性的技术问题。为实现上述目的,本发明提供如下技术方案:一种话题分类评判方法,包括:获取每个话题的关键词;对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;根据所述重复度,确定所述任意两个话题的分类是否合理。优选的,所述根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,包括:统计所述任意两个话题的关键词总数;根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。优选的,当所述任意两个话题的分类不合理时,所述方法还包括:分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;将所述任意两个话题间相同的高频关键词确定为重复高频关键词。优选的,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:确定所述第i个话题中关键词的词频;计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。优选的,所述方法还包括:统计所述重复高频关键词的数量N;当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。优选的,所述方法还包括:根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;根据所述元素值,计算每个节点的点度中心度值;将点度中心度值大于预设阈值的节点确定为分歧节点;所述分歧节点中的关键词为分歧关键词。优选的,所述根据所述元素值,计算每个节点的点度中心度值包括:统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。优选的,所述方法还包括:获取所述分歧关键词;根据从属关系表,确定所述分歧关键词所属的至少两个相关话题,所述从属关系表用于表征重复关键词与话题间的关联关系;计算所述分歧关键词与任一相关话题的关联强度,所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。优选的,在所述根据从属关系表,确定所述分歧关键词所属的至少两个相关话题之前,所述方法还包括:根据重复关键词与话题间的关联关系,建立所述从属关系表。一种话题分类评判装置,包括:关键词获取单元,用于获取每个话题的关键词;第一确定单元,用于对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;第二确定单元,用于根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;分类评判单元,用于根据所述重复度,确定所述任意两个话题的分类是否合理。一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述的话题分类评判方法。一种处理器,所述处理器用于运行程序,所述程序运行时执行上述的话题分类评判方法。从上述的技术方案可以看出,本发明提供的话题分类评判方法及装置,获取每个话题的关键词,并对于任意两个话题,确定重复关键词的数量,根据所述重复关键词的数量及所述任意两个话题的关键词总数,计算所述任意两个话题之间的重复度,根据所述重复度,确定所述任意两个话题的分类是否合理,从而实现了对话题分类合理性的评判,评判结果为话题分类提供了依据,提高了话题分类的合理性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的话题分类评判方法的一种流程图;图2为本申请实施例提供的话题分类评判方法的另一种流程图;图3为本申请实施例提供的话题分类评判方法的又一种流程图;图4为本申请实施例提供的话题分类评判方法的又一种流程图;图5为本申请实施例提供的话题分类评判方法的再一种流程图;图6为本申请实施例提供的话题分类评判装置的一种结构示意图;图7为本申请实施例提供的话题分类评判装置的又一种结构示意图;图8为本申请实施例提供的话题分类评判装置的又一种结构示意图;图9为本申请实施例提供的话题分类评判装置的又一种结构示意图;图10为本申请实施例提供的话题分类评判装置的再一种结构示意图。具体实施方式为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参阅图1,图1为本申请实施例提供的话题分类评判方法的一种流程图。如图1所示,所述方法包括:S101:获取每个话题的关键词;每个话题下都有留言文本,在留言文本中包含了对应话题的关键词。在一示例中,该步骤S101包括:对不同话题下的留言文本进行分词处理,得到分词结果;所述分词结果包括每个话题的关键词。依照话题分类,对不同话题下的留言文本进行分词处理,得到包括每个话题的关键词的分词结果,其中,话题的关键词具体是指话题中不重复的分词结果。例如,对不同话题下的留言文本进行分词处理后,得到“民生、住房、医疗、民生、健康”的分词结果,则话题的关键词为“民生、住房、医疗、健康”,而并不是“民生、住房、医疗、民生、健康”。在一示例中,话题的关键词不包括人称代词、语气词等无实际意义的词语,所以,在得到分词结果后,采取人工的方式,去除人称代词、语气词等这些无实际意义的词语。S102:对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;在得到每个话题的关键词后,为了便于使用,还可以采用表格的方式进行记录,如下表1、表2、表3及表4所示:表1话题-关键词-词频话题关键词词频话题1关键词15话题1关键词21话题2关键词17话题2关键词34话题3关键词33话题3关键词42………………表1示出了话题及其关键词,以及关键词的词频。表2关键词-词频关键词词频关键词15关键词21关键词37关键词44…………表2示出了关键词及其词频。表3关键词-话题-留言文本关键词话题留言文本关键词1话题1留言文本1关键词2话题1留言文本2关键词1话题2留言文本3关键词3话题2留言文本3关键词3话题3留言文本4关键词4话题3留言文本5………………表3示出了关键词及其所述话题、留言文本。表4话题-话题-重复关键词话题话题重复关键词话题1话题2关键词1话题1话题3——话题2话题3关键词3………………表4示出了两个话题及其重复关键词。对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词。其中,关键词的数量是指关键词的个数,而不是关键词的词频之和。例如,在表1中,对于话题1和话题2,两话题间相重复的关键词仅包括关键词1,则确定出话题1和话题2的重复关键词的数量为1。在一示例中,在确定重复关键词的数量时,去除在所有话题中都出现的关键词。在所有话题中都出现的关键词为通用词汇,不单独属于某一话题,对于话题分类合理性的判断不具实际意义。S103:根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;本实施例基于语义相似度理论,利用两个话题的关键词的重复情况来确定这两个话题之间的重复度。在一示例中,步骤S103具体包括:S1031:统计所述任意两个话题的关键词总数;S1032:根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。仍以表1为例,话题1与话题2的关键词包括关键词1、关键词2和关键词3,即话题1与话题2的关键词总数为3,话题1和话题2的重复关键词的数量为1,则题1和话题2的重复度等于13,或约等于0.333。在其他示例中,步骤S103还可以采用其他方法实现,在此不作限定。任意两个话题之间的重复度,可以采用表格的方式进行记录,如下表5所示:表5话题-话题-重复度话题话题重复度话题1话题20.33话题1话题30.26话题2话题30.78………………表5示出了两个话题及其重复度。S104:根据所述重复度,确定所述任意两个话题的分类是否合理。在一示例中,该步骤S104包括:当所述重复度不大于小于等于第一阈值或小于第一阈值时,确定话题的分类合理;否则,确定话题的分类不合理。或者,当所述重复度大于第一阈值或不小于大于等于第一阈值时,确定话题的分类不合理;否则,确定话题的分类合理。第一阈值可以根据具体需求来设置。例如,将第一阈值设置为0或其他值,当第一阈值为0时,则表明只要两个话题之间存在重复关键词,则判定两个话题的分类不合理,只有在两个话题之间完全不存在重复关键词时,才判定两个话题的分类合理,这样的阈值设置方式,对话题分类的合理性要求极为严格;当第一阈值不为0时,则表明两个话题在重复度不大于第一阈值的情况下,存在一定数量的重复关键词也是合理的,这样的阈值设置方式,对话题分类的合理性要求相对较为宽松。本实施例提供的话题分类评判方法,获取每个话题的关键词,并对于任意两个话题,确定重复关键词的数量,根据所述重复关键词的数量及所述任意两个话题的关键词总数,计算所述任意两个话题之间的重复度,根据所述重复度,确定所述任意两个话题的分类是否合理,从而实现了对话题分类合理性的评判,评判结果为话题分类提供了依据,提高了话题分类的合理性。请参阅图2,图2为本申请实施例提供的话题分类评判方法的另一种流程图。本实施例中,步骤S201-S204与前述实施例中步骤S101-S104相类似,在此不再赘述。如图2所示,所述方法还包括:S205:当所述任意两个话题的分类不合理时,分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词。在一示例中,对于所述任意两个话题中的第i个话题,所述高频关键词可以通过如下方式确定:S2051:确定所述第i个话题中关键词的词频;S2052:计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;S2053:将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2;在其他示例中,还可以采用其他方式来确定高频关键词,例如,将词频最大的一个或多个关键词确定为高频关键词。S206:将所述任意两个话题间相同的高频关键词确定为重复高频关键词。在确定出两个话题中每个话题的高频关键词后,确定两个话题间的重复高频关键词,重复高频关键词是指两个话题间相同的高频关键词。根据两个话题中每个话题的高频关键词,确定两个话题间的重复高频关键词的方式,与根据两个话题中每个话题的关键词,确定两个话题之间重复关键词的方式相类似。本实施例提供的话题分类评判方法,当两个话题的分类不合理时,分别统计所述两个话题中的高频关键词,将所述两个话题间相同的高频关键词确定为重复高频关键词,所述重复高频关键词能够表征使所述两个话题的分类不合理的主要因素,有助于进一步分析话题分类不合理的原因。请参阅图3,图3为本申请实施例提供的话题分类评判方法的又一种流程图。本实施例中,步骤S301-S306与前述实施例中步骤S201-S206相类似,在此不再赘述。如图3所示,所述方法还包括:S307:统计所述重复高频关键词的数量N;S308:当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;在一示例中,第二阈值为0,则N0表示只要两个话题之间存在重复高频关键词,则确定两个话题之间具有关联关系,并且,N个重复高频关键词中,任一重复高频关键词分别与所述任意两个话题之间均具有关联关系。在其他示例中,还可以根据具体需要将第二阈值设置为其他值,在此不作具体限定。S309:当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。在一示例中,第三阈值为1,则N1表示两个话题之间存在至少两个高频关键词,并且,确定这N个重复高频关键词之间具有关联关系。在其他示例中,还可以根据具体需要将第三阈值设置为其他值,在此不作具体限定。本实施例提供的话题分类评判方法,在确定出两个话题之间的重复高频关键词后,根据重复高频关键词的数量,确定两个话题之间的关联关系,确定任一重复高频关键词分别与所述两个话题之间的关联关系,以及,确定重复高频关键词之间的关联关系,基于这些关联关系,能够反映出话题与话题之间、关键词与关键词之间,以及,关键词与话题之间的相关性,从而为话题的合理分类提供相关依据。请参阅图4,图4为本申请实施例提供的话题分类评判方法的又一种流程图。本实施例中,步骤S401-S409与前述实施例中步骤S301-S309相类似,在此不再赘述。如图4所示,所述方法还包括:S410:构造邻接矩阵表;根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;在一示例中,第一预设值为1,第二预设值为0,则1表示具有关联关系,0表示不具有关联关系。邻接矩阵表如下表6所示:表6邻接矩阵表关键词1关键词2关键词3关键词4话题1话题2关键词1111011关键词2110111关键词3101111关键词4011111话题1111111话题2111111S411:根据所述元素值,计算每个节点的点度中心度值;基于社会网络分析理论,根据邻接矩阵表中的元素值,能够计算出邻接矩阵表中每个节点的点度中心度值。在一示例中,所述根据所述元素值,计算每个节点的点度中心度值包括:S4111:统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;S4112:利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。在其他示例中,还可以采用其他方式计算每个节点的点度中心度值,在此不作限定。S412:将点度中心度值大于预设阈值的节点确定为分歧节点;所述分歧节点中的关键词为分歧关键词。点度中心度值越大的节点,在关系网络中影响力越大,也越重要,同时也表明该节点对应的关键词在话题分类上存在较大分歧。本实施例提供的话题分类评判方法,根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表,基于该邻接矩阵表,确定出分歧关键词,该分歧关键词用于表征在话题分类上分歧较大的关键词,进一步为话题的合理分类提供依据。请参阅图5,图5为本申请实施例提供的话题分类评判方法的再一种流程图。本实施例中,步骤S501-S512与前述实施例中步骤S401-S412相类似,在此不再赘述。如图5所示,所述方法还包括:S513:获取所述分歧关键词;分歧关键词在话题分类上存在较大分歧,所以有必要对分歧关键词与话题的关联关系进行分析,以确定该分歧关键词更适于划分至哪一话题。S514:根据从属关系表,确定所述分歧关键词所属的至少两个相关话题;所述从属关系表用于表征重复关键词与话题间的关联关系。分歧关键词属于重复关键词,所以,根据该从属关系表,能够确定出分歧关键词所属的至少两个相关话题。在一示例中,在步骤S514之前,所述方法还包括:根据重复关键词与话题间的关联关系,建立所述从属关系表。所述从属关系表可以采用如前述实施例中的“话题-话题-重复关键词”表表4。在其他示例中,从属关系表也可以采用其他表格形式来表示。S515:计算所述分歧关键词与任一相关话题的关联强度;所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;例如,当分歧关键词1在话题1中的词频为10,话题1中所有关键词的词频总数为100,则,分词关键词1与话题1的关联强度为0.1;当分歧关键词1在话题2中的词频为5,话题2中所有关键词的词频总数为40,则,分词关键词1与话题2的关联强度为0.125。S516:将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。分歧关键词与某一话题的关联强度越高,表明将该分歧关键词划分至该话题,具体更高的合理性。在上例中,分词关键词1与话题1的关联强度为0.1,与话题2的关联强度为0.125,显然,在话题1与话题2中,分词关键词1与话题2的关联强度最高,则分词关键词1与话题2具有更高的相关性,将分词关键词1划分至话题2具体更高的合理性。本实施例提供的话题分类评判方法,基于分歧关键词以及分歧关键词所属的至少两个相关话题,计算分歧关键词与任一相关话题的关联强度,并将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题,而避免将分歧关键词划分至与所述分歧关键词关联强度较低的相关话题,进而提高了话题分类的合理性。对应于前述的话题分类评判方法,本发明实施例还提供了相应的话题分类评判装置。请参阅图6,图6为本申请实施例提供的话题分类评判装置的一种结构示意图。本实施例的话题分类评判装置,用于实施前述实施例的话题分类评判方法,如图6所示,所述装置包括:关键词获取单元U101,用于获取每个话题的关键词;在一示例中,所述关键词获取单元U101包括:文本分词单元,用于对不同话题下的留言文本进行分词处理,得到分词结果;所述分词结果包括每个话题的关键词;文本分词单元能够依照话题分类,对不同话题下的留言文本进行分词处理,得到包括每个话题的关键词的分词结果,其中,话题的关键词具体是指话题中不重复的分词结果。在一示例中,话题的关键词不包括人称代词、语气词等无实际意义的词语,所以,在得到分词结果后,采取人工的方式,去除人称代词、语气词等这些无实际意义的词语。第一确定单元U102,用于对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词。在得到每个话题的关键词后,为了便于使用,还可以采用前述实施例中的表1-表4进行相关信息的记录,在此不再赘述。在一示例中,第一确定单元U102在确定重复关键词的数量时,去除在所有话题中都出现的关键词。在所有话题中都出现的关键词为通用词汇,不单独属于某一话题,对于话题分类合理性的判断无具实际意义。第二确定单元U103,用于根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;本实施例基于语义相似度理论,利用两个话题的关键词的重复情况来确定这两个话题之间的重复度。在一示例中,第二确定单元U103具体包括:第一统计子单元,用于统计所述任意两个话题的关键词总数;第一计算子单元,用于根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。任意两个话题之间的重复度,可以采用前述实施例的“话题-话题-重复度”表表5来记录,在此不再赘述。分类评判单元U104,用于根据所述重复度,确定所述任意两个话题的分类是否合理。在一示例中,当所述重复度不大于第一阈值或小于第一阈值时,确定话题的分类合理;否则,确定话题的分类不合理。或者,当所述重复度大于第一阈值或不小于第一阈值时,确定话题的分类不合理;否则,确定话题的分类合理。第一阈值可以根据具体需求来设置。例如,将第一阈值设置为0或其他值,当第一阈值为0时,则表明只要两个话题之间存在重复关键词,则判定两个话题的分类不合理,只有在两个话题之间完全不存在重复关键词时,才判定两个话题的分类合理,这样的阈值设置方式,对话题分类的合理性要求极为严格;当第一阈值不为0时,则表明两个话题在重复度不大于第一阈值的情况下,存在一定数量的重复关键词也是合理的,这样的阈值设置方式,对话题分类的合理性要求相对较为宽松。本实施例提供的话题分类评判装置,获取每个话题的关键词,并对于任意两个话题,确定重复关键词的数量,根据所述重复关键词的数量及所述任意两个话题的关键词总数,计算所述任意两个话题之间的重复度,根据所述重复度,确定所述任意两个话题的分类是否合理,从而实现了对话题分类合理性的评判,评判结果为话题分类提供了依据,提高了话题分类的合理性。请参阅图7,图7为本申请实施例提供的话题分类评判装置的另一种结构示意图。本实施例的话题分类评判装置,除了包括前述实施例中的关键词获取单元U101、第一确定单元U102、第二确定单元U103和分类评判单元U104外,还包括:第一统计单元U105,用于当所述任意两个话题的分类不合理时,分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词。在一示例中,对于所述任意两个话题中的第i个话题,所述高频关键词可以通过以下功能单元确定:第三确定单元,用于确定所述第i个话题中关键词的词频;第一计算单元,用于计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;第四确定单元,用于将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2;在其他示例中,还可以采用其他方式来确定高频关键词,例如,将词频最大的一个或多个关键词确定为高频关键词。第五确定单元U106,用于将所述任意两个话题间相同的高频关键词确定为重复高频关键词。在确定出两个话题中每个话题的高频关键词后,确定两个话题间的重复高频关键词,重复高频关键词是指两个话题间相同的高频关键词。本实施例提供的话题分类评判装置,当两个话题的分类不合理时,分别统计所述两个话题中的高频关键词,将所述两个话题间相同的高频关键词确定为重复高频关键词,所述重复高频关键词能够表征使所述两个话题的分类不合理的主要因素,有助于进一步分析话题分类不合理的原因。请参阅图8,图8为本申请实施例提供的话题分类评判装置的又一种结构示意图。本实施例的话题分类评判装置,除了包括前述实施例中的关键词获取单元U101、第一确定单元U102、第二确定单元U103、分类评判单元U104、第一统计单元U105和第五确定单元U106外,还包括:第二统计单元U107,用于统计所述重复高频关键词的数量N;第六确定单元U108,用于当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。在一示例中,第二阈值为0,则N0表示只要两个话题之间存在重复高频关键词,则确定两个话题之间具有关联关系,并且,N个重复高频关键词中,任一重复高频关键词分别与所述任意两个话题之间均具有关联关系。在其他示例中,还可以根据具体需要将第二阈值设置为其他值,在此不作具体限定。在一示例中,第三阈值为1,则N1表示两个话题之间存在至少两个高频关键词,并且,确定这N个重复高频关键词之间具有关联关系。在其他示例中,还可以根据具体需要将第三阈值设置为其他值,在此不作具体限定。本实施例提供的话题分类评判装置,在确定出两个话题之间的重复高频关键词后,根据重复高频关键词的数量,确定两个话题之间的关联关系,确定任一重复高频关键词分别与所述两个话题之间的关联关系,以及,确定重复高频关键词之间的关联关系,基于这些关联关系,能够反映出话题与话题之间、关键词与关键词之间,以及,关键词与话题之间的相关性,从而为话题的合理分类提供相关依据。请参阅图9,图9为本申请实施例提供的话题分类评判装置的又一种结构示意图。本实施例的话题分类评判装置,除了包括前述实施例中的关键词获取单元U101、第一确定单元U102、第二确定单元U103、分类评判单元U104、第一统计单元U105、第五确定单元U106、第二统计单元U107和第六确定单元U108外,还包括:邻接矩阵单元U109,用于根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;在一示例中,第一预设值为1,第二预设值为0,则1表示具有关联关系,0表示不具有关联关系。邻接矩阵表可参见前述实施例中的表6所示。第二计算单元U110,用于根据所述元素值,计算每个节点的点度中心度值;基于社会网络分析理论,根据邻接矩阵表中的元素值,能够计算出邻接矩阵表中每个节点的点度中心度值。在一示例中,所述第二计算单元U110包括:第二统计子单元,用于统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;第二计算子单元,用于利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。在其他示例中,还可以采用其他方式计算每个节点的点度中心度值,在此不作限定。第七确定单元U111,用于将点度中心度值大于预设阈值的节点确定为分歧节点;所述分歧节点中的关键词为分歧关键词。点度中心度值越大的节点,在关系网络中影响力越大,也越重要,同时也表明该节点对应的关键词在话题分类上存在较大分歧。本实施例提供的话题分类评判装置,根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表,基于该邻接矩阵表,确定出分歧关键词,该分歧关键词用于表征在话题分类上分歧较大的关键词,进一步为话题的合理分类提供依据。请参阅图10,图10为本申请实施例提供的话题分类评判装置的再一种结构示意图。本实施例的话题分类评判装置,除了包括前述实施例中的关键词获取单元U101、第一确定单元U102、第二确定单元U103、分类评判单元U104、第一统计单元U105、第五确定单元U106、第二统计单元U107、第六确定单元U108、邻接矩阵单元U109、第二计算单元U110和第七确定单元U111外,还包括:第一获取单元U112,用于获取所述分歧关键词;分歧关键词在话题分类上存在较大分歧,所以有必要对分歧关键词与话题的关联关系进行分析,以确定该分歧关键词更适于划分至哪一话题。第八确定单元U113,用于根据从属关系表,确定所述分歧关键词所属的至少两个相关话题;所述从属关系表用于表征重复关键词与话题间的关联关系。分歧关键词属于重复关键词,所以,根据该从属关系表,能够确定出分歧关键词所属的至少两个相关话题。在一示例中,所述装置还包括:表格建立单元,用于根据重复关键词与话题间的关联关系,建立所述从属关系表。所述从属关系表可以采用如前述实施例中的“话题-话题-重复关键词”表表4。在其他示例中,从属关系表也可以采用其他表格形式来表示。第三计算单元U114,用于计算所述分歧关键词与任一相关话题的关联强度;所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;分类调整单元U115,用于将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。分歧关键词与某一话题的关联强度越高,表明将该分歧关键词划分至该话题,具体更高的合理性。本实施例提供的话题分类评判装置,基于分歧关键词以及分歧关键词所属的至少两个相关话题,计算分歧关键词与任一相关话题的关联强度,并将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题,而避免将分歧关键词划分至与所述分歧关键词关联强度较低的相关话题,进而提高了话题分类的合理性。本发明实施例提供的话题分类评判装置,包括处理器和存储器,上述关键词获取单元U101、第一确定单元U102、第二确定单元U103、分类评判单元U104、第一统计单元U105、第五确定单元U106、第二统计单元U107、第六确定单元U108、邻接矩阵单元U109、第二计算单元U110、第七确定单元U111、第一获取单元U112、第八确定单元U113、第三计算单元U114、分类调整单元U115以及第一统计子单元、第一计算子单元、第三确定单元、第一计算单元、第四确定单元、第二统计子单元、第二计算子单元和表格建立单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决目前无法有效评判话题分类合理性的技术问题。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器RAM和或非易失性内存等形式,如只读存储器ROM或闪存flashRAM,存储器包括至少一个存储芯片。本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述任意一种话题分类评判方法。本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一种话题分类评判方法。本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取每个话题的关键词;对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;根据所述重复度,确定所述任意两个话题的分类是否合理。优选的,所述根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,包括:统计所述任意两个话题的关键词总数;根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。优选的,当所述任意两个话题的分类不合理时,所述方法还包括:分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;将所述任意两个话题间相同的高频关键词确定为重复高频关键词。优选的,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:确定所述第i个话题中关键词的词频;计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。优选的,所述方法还包括:统计所述重复高频关键词的数量N;当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。优选的,所述方法还包括:根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;根据所述元素值,计算每个节点的点度中心度值;将点度中心度值大于预设阈值的节点确定为分歧节点;所述分歧节点中的关键词为分歧关键词。优选的,所述根据所述元素值,计算每个节点的点度中心度值包括:统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。优选的,所述方法还包括:获取所述分歧关键词;根据从属关系表,确定所述分歧关键词所属的至少两个相关话题,所述从属关系表用于表征重复关键词与话题间的关联关系;计算所述分歧关键词与任一相关话题的关联强度,所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。优选的,在所述根据从属关系表,确定所述分歧关键词所属的至少两个相关话题之前,所述方法还包括:根据重复关键词与话题间的关联关系,建立所述从属关系表。本文中的设备可以是服务器、PC、PAD、手机等。本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取每个话题的关键词;对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;根据所述重复度,确定所述任意两个话题的分类是否合理。优选的,所述根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,包括:统计所述任意两个话题的关键词总数;根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。优选的,当所述任意两个话题的分类不合理时,所述方法还包括:分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;将所述任意两个话题间相同的高频关键词确定为重复高频关键词。优选的,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:确定所述第i个话题中关键词的词频;计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。优选的,所述方法还包括:统计所述重复高频关键词的数量N;当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。优选的,所述方法还包括:根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;根据所述元素值,计算每个节点的点度中心度值;将点度中心度值大于预设阈值的节点确定为分歧节点;所述分歧节点中的关键词为分歧关键词。优选的,所述根据所述元素值,计算每个节点的点度中心度值包括:统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。优选的,所述方法还包括:获取所述分歧关键词;根据从属关系表,确定所述分歧关键词所属的至少两个相关话题,所述从属关系表用于表征重复关键词与话题间的关联关系;计算所述分歧关键词与任一相关话题的关联强度,所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。优选的,在所述根据从属关系表,确定所述分歧关键词所属的至少两个相关话题之前,所述方法还包括:根据重复关键词与话题间的关联关系,建立所述从属关系表。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备系统、和计算机程序产品的流程图和或方框图来描述的。应理解可由计算机程序指令实现流程图和或方框图中的每一流程和或方框、以及流程图和或方框图中的流程和或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器CPU、输入输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器RAM和或非易失性内存等形式,如只读存储器ROM或闪存flashRAM。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存PRAM、静态随机存取存储器SRAM、动态随机存取存储器DRAM、其他类型的随机存取存储器RAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、快闪记忆体或其他内存技术、只读光盘只读存储器CD-ROM、数字多功能光盘DVD或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体transitorymedia,如调制的数据信号和载波。还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

权利要求:1.一种话题分类评判方法,其特征在于,包括:获取每个话题的关键词;对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;根据所述重复度,确定所述任意两个话题的分类是否合理。2.如权利要求1所述的方法,其特征在于,所述根据所述重复关键词的数量,确定所述任意两个话题之间的重复度,包括:统计所述任意两个话题的关键词总数;根据所述重复关键词的数量及关键词总数,计算所述任意两个话题之间的重复度,所述重复度为所述重复关键词的数量与所述关键词总数的比值。3.如权利要求1所述的方法,其特征在于,当所述任意两个话题的分类不合理时,所述方法还包括:分别统计所述任意两个话题中的高频关键词;所述高频关键词为话题中词频高于预设词频的关键词;将所述任意两个话题间相同的高频关键词确定为重复高频关键词。4.如权利要求3所述的方法,其特征在于,对于所述任意两个话题中的第i个话题,所述高频关键词通过如下方式确定:确定所述第i个话题中关键词的词频;计算所述第i个话题的关键词的平均词频;所述平均词频作为所述预设词频;将所述第i个话题中词频超过所述平均词频的关键词确定为高频关键词;i为1或2。5.如权利要求3所述的方法,其特征在于,所述方法还包括:统计所述重复高频关键词的数量N;当所述N大于第二阈值时,确定所述任意两个话题之间具有关联关系,以及,确定任一重复高频关键词分别与所述任意两个话题之间均具有关联关系;当所述N大于第三阈值时,确定N个重复高频关键词之间具有关联关系。6.如权利要求5所述的方法,其特征在于,所述方法还包括:根据话题间的关联关系、关键词间的关联关系以及关键词与话题间的关联关系,构造邻接矩阵表;所述邻接矩阵表中的任一节点为话题或关键词,其中,所述邻接矩阵表中具有关联关系的任意两个节点对应的元素值为第一预设值,不具有关联关系的任意两个节点对应的元素值为第二预设值;根据所述元素值,计算每个节点的点度中心度值;将点度中心度值大于预设阈值的节点确定为分歧节点,并确定所述分歧节点中的关键词为分歧关键词。7.如权利要求6所述的方法,其特征在于,所述根据所述元素值,计算每个节点的点度中心度值包括:统计节点j所在行的第一预设值的数目Xj、所述节点j所在列的第一预设值的数目Yj,以及,所述邻接矩阵表中第一预设值的总数Z;利用公式Hj=[Xj+Yj-1]Z,计算所述节点j的点度中心度值Hj;其中,所述节点j为所述邻接矩阵表中任一节点。8.如权利要求6所述的方法,其特征在于,还包括:获取所述分歧关键词;根据从属关系表,确定所述分歧关键词所属的至少两个相关话题,所述从属关系表用于表征重复关键词与话题间的关联关系;计算所述分歧关键词与任一相关话题的关联强度,所述关联强度为所述分歧关键词在所述任一相关话题中的词频与所述任一相关话题中所有关键词的词频总数的比值;将所述分歧关键词划分至与所述分歧关键词关联强度最高的相关话题。9.如权利要求8所述的方法,其特征在于,在所述根据从属关系表,确定所述分歧关键词所属的至少两个相关话题之前,所述方法还包括:根据重复关键词与话题间的关联关系,建立所述从属关系表。10.一种话题分类评判装置,其特征在于,包括:关键词获取单元,用于获取每个话题的关键词;第一确定单元,用于对于任意两个话题,确定重复关键词的数量;所述重复关键词包括所述任意两个话题间相重复的关键词;第二确定单元,用于根据所述重复关键词的数量,确定所述任意两个话题之间的重复度;分类评判单元,用于根据所述重复度,确定所述任意两个话题的分类是否合理。11.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1至9任一项所述的话题分类评判方法。12.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时执行权利要求1至9任一项所述的话题分类评判方法。

百度查询: 北京国双科技有限公司 话题分类评判方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。