买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用户观点的异常预警方法和装置_阿里巴巴集团控股有限公司_201610024382.0 

申请/专利权人:阿里巴巴集团控股有限公司

申请日:2016-01-14

公开(公告)日:2020-07-03

公开(公告)号:CN106970925B

主分类号:G06F16/35(20190101)

分类号:G06F16/35(20190101);G06F16/33(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.03#授权;2017.08.15#实质审查的生效;2017.07.21#公开

摘要:本申请提出一种用户观点的异常预警方法和装置,该方法包括:获取符合预设条件的用户文档;对所述用户文档进行聚类;提取所述聚类主题的用户观点;根据预设时间内所述用户观点的用户文档数量进行预警。该方法能够实时监测各用户观点的文档数量增长速度,有利于及时发现用户观点的大规模激增,尤其是负面观点的激增,使得企业能够在发现问题后迅速做出反应,有效避免情况恶化,提高解决问题的主动性。

主权项:1.一种用户观点的异常预警方法,其特征在于,包括:获取符合预设条件的用户文档;提取所述用户文档中的用户意图特征;对所述用户意图特征进行文档相似度分析;根据文档相似度分析的结果对所述用户文档进行聚类;统计每一个所述聚类主题中所有用户文档的词频,对每个聚类主题中的词按照词频排序,根据词频排序由高到低筛选得到一定数量的关键词,根据所述关键词在所述用户文档中出现的位置,分析得到所述关键词的语序,提取得到所述聚类主题的用户观点;根据预设时间内所述用户观点的用户文档数量进行预警。

全文数据:用户观点的异常预警方法和装置技术领域[0001]本申请涉及文档分析技术领域,尤其涉及一种用户观点的异常预警方法和装置。背景技术[0002]近年来,随着互联网技术的发展,聊天软件、网络论坛、微博等在线功能逐渐流行,公共舆论的影响已经被网络、大众等媒体不断放大,用户的观点可以对企业形象造成极大的影响。例如,在微博上短期内的大量转发和负面评论可以对企业、产品或个人形象产生极坏的影响,如果不能及时发现并处理,非常容易导致事态发展扩张。因此,对各种用户观点进行分析,快速发现某些负面的观点并进行预警变得非常重要。[0003]目前,有人提出通过舆论观点动力学的模型,根据网络拓朴结构对网络中的用户观点进行传播和预测,但现阶段具备的网络舆论分析手段与方法不能够有效地对现实舆论情况做出准确的反应,在预测、推演功能方面存在较为严重的滞后性,且现有的网络舆论分析方法往往是针对网络拓扑结构进行传播走势方面的建模和预测,无法对用户观点的文本内容进行分析,进而难以快速发现大规模的快速增长的异常或负面的用户观点,因而无法做出相应的预警和快速的响应。发明内容[0004]为解决现有技术中的上述问题,本申请的一个目的在于提出一种用户观点的异常预警方法及装置,可以根据用户观点的用户文档数量的变化发现用户观点的异常增加并进行预警,以便于及时发现并处理问题,防止事态扩大。[0005]为达到上述目的,本申请实施例提出的用户观点的异常预警方法,包括:获取符合预设条件的用户文档;对所述用户文档进行聚类;提取所述聚类主题的用户观点;根据预设时间内所述用户观点的用户文档数量进行预警。[0006]为达到上述目的,本申请实施例提出的用户观点的异常预警装置,包括:获取模块,用于获取符合预设条件的用户文档;聚类模块,用于对所述用户文档进行聚类;提取模块,用于提取所述聚类主题的用户观点;预警模块,用于根据预设时间内所述用户观点的用户文档数量进行预警。[0007]由以上本申请实施例提供的技术方案可见,通过对用户文档进行聚类,并提取各聚类主题所表达的用户观点,对预设时间内某一用户观点的用户文档数量进行分析,实时监测各用户观点的文档数量增长速度,在数据异常时做出预警,有利于及时发现用户观点的大规模激增,尤其是负面观点的激增,使得企业能够在发现问题后迅速做出反应,有效避免情况恶化,提高解决问题的主动性。[0008]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明[0009]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0010]图1是本申请一实施例提出的用户观点的异常预警方法的流程示意图;[0011]图2是本申请一实施例的用户观点的异常预警装置的结构示意图;[0012]图3是本申请另一实施例的用户观点的异常预警装置的结构示意图;[0013]图4是本申请另一实施例的预警模块400的结构示意图;[0014]图5是本申请另一实施例的预警模块400的结构示意图;[0015]图6是本申请另一实施例的预警模块400的结构示意图;[0016]图7是本申请一具体实施例的对用户观点进行异常预警的流程示意图。具体实施方式[0017]本申请实施例提供一种用户观点的异常预警方法和装置。[0018]为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。[0019]图1是本申请一实施例提出的用户观点的异常预警方法的流程示意图,在该图所示的实施例中,通过对涉及预设内容的用户文档进行聚类,并提取各聚类主题所表达的用户观点,对用户观点进行分析,从而对快速增长的异常用户观点进行预警。如图1所示,该方法包括:[0020]步骤101,获取符合预设条件的用户文档。[0021]具体的,获取用户文档的方式有多种,例如可以从网页获取,从预设的网站抓取,或者从已知的数据库中提取,还可以从预设程序的记录中获取。预设条件可以是与特定事件、产品等相关,或者包含预设的词汇、语句等,例如,可以从涉及预设内容或词汇的微博网页上抓取相关的用户留言、转发评论等,也可以从内部渠道直接得到的用户反馈记录中获取用户的评论、留言、反馈、投诉等。[0022]步骤1〇2,对所述用户文档进行聚类。可通过现有的聚类算法计算各用户文档的相似度并进行聚类。[0023]步骤1〇3,提取所述聚类主题的用户观点。可以根据聚类得到的文档群中的关键词提取文档群所表达的用户观点,具体将在后续实施例中进行详细说明。[0024]步骤104,根据预设时间内所述用户观点的用户文档数量进行预警。[0025]根据本申请的一个实施例,所述对所述用户文档进行聚类包括:提取所述用户文档中的用户意图特征;对所述用户意图特征进行文档相似度分析;根据文档相似度分析的结果对所述用户文档进行聚类。具体地,对于聚类而言,不同的聚类算法本质上都是通过各种相似度的度量来进行聚类。本申请可以采用多种聚类方法,优选地采用流式聚类方法,即基于online学习的聚类算法,例如SinglePass算法等,按照时间顺序对用户文档进行实时聚类,通过提取用户文档中最能够表达用户意图的特征,以此为依据来对文档进行相似度分析和聚类,能够使得聚类得到的文档群所表达的用户意图最接近,聚类准确度更高,效率更快。[0026]根据本申请的一个实施例,用户意图特征包括依存特征、文本特征、动词特征和用户行为特征。其中,依存特征是一种描述词与词之间依存关系的算法。在依存句法中,每个句子都是一个最关键的词,这个词可以用来表示用户的意图。具体地,可以对用户文档分别进行依存特征提取得到依存特征,进行文本预处理得到文本特征,提取文档中的动词得到动词特征,对用户与预设内容相关的行为进行提取和筛选得到用户行为特征。提取上述用户意图特征,能够使得提取的特征更加有效,从而增强聚类算法的效果和准确性。[0027]根据本申请的一个实施例,所述提取所述聚类主题的用户观点包括:对所述聚类主题中的用户文档进行词频排序;根据所述词频排序提取所述聚类主题的用户观点。可以对聚类主题中的所有用户文档进行词频排序,筛选得到词频最高的几个关键词,根据筛选出的关键词在各文档中出现的位置,分析得到这些关键词的语序,最终提取到该聚类主题的用户观点。[0028]根据本申请的一个实施例,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值时,进行异常观点预警。其中,文档数量信息可以是预设时间内该用户观点增加的文档数量、单位时间内的新增值、预设时间内的数量均值、增长速度等数量统计信息中的一项或多项,预设时间可以根据统计需求设定,例如对某一用户观点一天内的新增文档数量进行监测,那么可以获取最近30天内的文档数据来计算每天出现的属于该用户观点的文档数量均值。通过根据一个用户观点在预设时间段内出现用户文档的数量均值,判断新增文档数量是否异常,从而可以通过发现这种数量上的异常来进行预警。本实施例可通过基于rbfkernel的方法实现,具体将在后续实施例中详细说明。[0029]根据本申请的一个实施例,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;当所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。具体地,可以采用基于时间序列的方法来进行预测。时间预测方法是一种常用的对未来数量进行预测方法。常见的时间预测方法有arima方法。arima方法是一种基于历史信息来对未来进行预测的方法。可根据历史文档数量例如前三十天每天的文档数量计算得到今天的预测文档数量值。如果聚类主题中所包含的文档数远大于历史的数量,就进行报警。需要说明的是,arima方法在基于时间序列进行数量预测方面的应用可参见相关的技术文档,例如《时间序列预测技术之三——含自变量的ARIMA模型预测》沈浩,2009-12-02等,本申请对此不再赘述。[0030]根据本申请的一个实施例,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值,且所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。本实施例结合了两种预警的判断条件,当上述两种情况同时发生时才对该用户观点进行异常预警,能够有效减少误报概率,显著提高预警的正确性。[0031]根据本申请的实施例,可以通过对用户文档进行聚类,并提取各聚类主题所表达的用户观点,通过对预设时间内某一用户观点的用户文档数量进行分析,可以实时监测各用户观点的文档数量增长速度,在数据异常时做出预警,有利于及时发现用户观点的大规模激增,尤其是负面观点的激增,使得企业能够在发现问题后迅速做出反应,有效避免情况恶化,提高解决问题的主动性。[0032]基于同一发明构思,本申请实施例还提供了一种用户观点的异常预警装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于用户观点的异常预警装置解决问题的原理与用户观点的异常预警方法相似,因此用户观点的异常预警装置的实施可以参见用户观点的异常预警装置的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。[0033]图2是本申请一实施例的用户观点的异常预警装置的结构示意图。本实施例的装置可以为实现相应功能的逻辑部件构成,也可以为运行有相应功能软件的电子设备。[0034]如图2所示,该用户观点的异常预警装置包括:获取模块100、聚类模块200、提取模块300和预警模块400。[0035]具体地,获取模块100用于获取符合预设条件的用户文档。[0036]聚类模块200用于对所述用户文档进行聚类。[0037]提取模块300用于提取所述聚类主题的用户观点。[0038]预警模块400用于根据预设时间内所述用户观点的用户文档数量进行预警。[0039]图3所示是本申请另一实施例的用户观点的异常预警装置的结构示意图。[0040]根据本申请的一个实施例,如图3所示,聚类模块200包括提取子模块210、相似度分析子模块220和聚类子模块230。[0041]具体地,提取子模块210用于提取所述用户文档中的用户意图特征;[0042]相似度分析子模块220用于对所述用户意图特征进行文档相似度分析;[0043]聚类子模块230用于根据文档相似度分析的结果对所述用户文档进行聚类。[0044]根据本申请的一个实施例,提取子模块210具体用于提取所述文档中的依存特征、文本特征、动词特征和用户行为特征。[0045]根据本申请的一个实施例,如图3所示,提取模块300可以包括词频排序子模块310和观点提取子模块320。其中,词频排序子模块310用于对所述聚类主题中的用户文档进行词频排序;观点提取子模块320用于根据所述词频排序提取所述聚类主题的用户观点。[0046]根据本申请的一个实施例,如图4所示,预警模块400可以包括统计子模块410、计算子模块420和第一预警子模块430。其中,统计子模块410用于统计预设时间内所述用户观点的文档数量信息;计算子模块420用于根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;第一预警子模块430用于在所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值时,进行异常观点预警。[0047]根据本申请的一个实施例,如图5所示,预警模块400可以包括统计子模块410、预测子模块440和第二预警子模块450。统计子模块410,用于统计预设时间内所述用户观点的文档数量信息;预测子模块440用于根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;第二预警子模块450用于当所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。[0048]根据本申请的一个实施例,如图6所示,预警模块400可以包括统计子模块410、计算子模块420、预测子模块440和第三预警子模块460。其中,第三预警子模块470用于在所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值,且所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。[0049]根据本申请的实施例,可以通过对用户文档进行聚类,提取各聚类主题所表达的用户观点,并通过对预设时间内某一用户观点的用户文档数量进行分析,实时监测各用户观点的文档数量增长速度,在数据异常时做出预警,有利于及时发现用户观点的大规模激增,尤其是负面观点的激增,使得企业能够在发现问题后迅速做出反应,有效避免情况恶化,提高解决问题的主动性。[0050]图7所示是本申请一具体实施例的使用上述方法和装置对用户观点进行异常预警的流程示意图:[0051]步骤1,获取符合预设条件的用户文档。[0052]具体的,获取用户文档的方式有多种,例如可以从网页获取,从预设的网站抓取,或者从已知的数据库中提取,还可以从预设程序的记录中获取。预设条件可以是与特定事件、产品等相关,或者包含预设的词汇、语句等,例如,可以从涉及预设内容或词汇的微博网页上抓取相关的用户留言、转发评论等,也可以从内部渠道直接得到的用户反馈记录中获取用户的评论、留言、反馈、投诉等。具体例如到阿里巴巴的官方微博中抓取与“蚂蚁花呗”相关的评论。[0053]步骤2,提取所述用户文档中的依存特征。[0054]具体地,依存特征是一种描述句子中词与词之间依存关系的特征。在依存特征句法中,每个句子都围绕着一个最关键的词,这个词可以用来表示用户的意图。具体可以根据现有的依存特征算法提取用户文档中的依存特征。[0055]步骤3,提取所述用户文档中的文本特征。[0056]具体地,可以对所述用户文档中的文本进行常规的预处理,因为用于预警分析的用户文档的文本大多是短对话,所以通常没有必要将其进行分词,而是通过2-gram—种常用的非基于词典的分词方法,用于将一句话按照两个字进行分割,例如花呗手续费分为:花唄,唄手,手续,续费来进行预处理。在进行2-gram预处理后之后,通过文本向量空间模型来将文本转化为一个向量。[0057]步骤4,提取所述用户文档中的动词特征。[0058]一般而言,动词是一个句子中最重要的一个词,最能表示用户意图。所以将句子中表示用户意图的动词提取出来,也可以较准确地表述用户意图特征。[0059]步骤5,提取所述用户文档中的用户行为特征。[0060]具体地,可将用户与预设条件相关的特征提取出来。选择合适的用户特征对于提高分类的正确性,有着重要的意义。目前,主要通过业务经验来选择用户行为特征。例如预设条件是产品“蚂蚁花呗”,则可以提取用户是否开通该产品,用户最近的登录地址,用户最近的IP地址等等。[0061]步骤6,对所述用户意图特征进行文档相似度分析。[0062]其中,用户意图特征包括上述的依存特征、文本特征、动词特征和用户行为特征。[0063]具体地,经典的聚类算法一般都有一个相似度测量的公式。本实施例中,以基于cosine距离的相似度测量公式为例进行说明。公式如下:[0064]simdoci,doC2=acostexti,text2+Pcosdepi,dep2+yverbi,verb2+9behi,beh2[0065]a+{3+y+9=1[0066]其中,doci和doc2表不两篇用户文档,texti和text2分别是doci和doC2中的文本特征部分,depi和dep2分别是doci和doc2中的依存特征句法部分,verbl和verb2分别是docl和doc2中的动词特征部分,behi和beh2分别是doci和doC2中的用户行为特征部分,cos指的是通过余弦值来度量相似度,a,队y,e指的是相对应的权重。遵循一般规则,相似度的范围一般是在0到1之间,故要求a,P,y,0相加为1。一般而言,相似度越接近1,两句话就越接近。相似度越接近0,两句话就越不相似,也就是说,两句话所表示的语义相差就越大。[0067]需要理解的是,除上述四种特征外,用户意图特征还可以有多种,对应的相似度测量公式也相应的不同。本实施例选用的四种特征能够使得提取的特征更加有效,从而增强聚类算法的效果和准确性。[0068]步骤7,根据文档相似度分析的结果对所述用户文档进行聚类。[0069]举例而言,以基于online学习的聚类算法为例,可以按照时间顺序对用户文档进行实时聚类。[0070]首先需要指定算法的一些超参数,tl为相似度的上限,t2为相似度的下限。tl和t2的取值范围为0到1之间。[0071]具体地,开始的时候,聚类主题数目为0,即所有的用户文档都没有归属聚类主题。将每个按照时间顺序流入的用户文档,进行上述各种用户意图特征提取,得到一个大的向量,然后计算每个聚类主题的文档群的质心,再分别计算新流入的用户文档与每个聚类主题的质心的相似度,如果与某一质心的相似度大于tl,则将这篇用户文档归属在这一聚类主题里。如果相似度全部小于t2,则将这个用户文档作为一个单独的主题。如果相似度均在tl和t2之间,则表示该用户文档的相似度难以界定,可抛弃此文档。[0072]步骤8,对所述聚类主题中的用户文档进行词频排序。[0073]具体地,为了能更好的进行观点展现,可以选择简单的观点抽取的方法。例如,可统计每一个聚类主题中所有用户文档的词频,对于每个主题中的词按照词频排序。然后,筛选得到排在前10的词,作为该聚类主题的高频词。[0074]步骤9,根据所述词频排序提取所述聚类主题的用户观点。[0075]具体地,可统计筛选出的各高频词在各用户文档中出现的位置,并计算得到平均位置的值,根据平均位置的值对这些高频词进行排序,分析得到这些高频词的语序,最终提取到该聚类主题的用户观点。举例而言,词频筛选得到的高频词为“花观”“开通”“无法”,可将这三个高频词代回到原文档中获取位置值,具体例如,一个用户文档中依次出现了“花呗”“无法”两个关键词,“花呗”在该文档中的位置值即为1,“无法”在该文档中的位置值即为2,以此类推,可以获取到该聚类主题中各个高频词在每个用户文档中的位置值,通过计算位置值的平均值得到“花呗”的平均位置为1.3,“开通”的平均位置为3.5,“无法,,的平均位置为2•3,根据平均位置排序可得到观点“花呗无法开通”。[0076]在预警部分,可通过以下三种方式进行用户观点的文档数量预警。[0077]步骤10,统计预设时间内所述用户观点的文档数量信息。[0078]其中,文档数量信息可以是预设时间内该用户观点增加的文档数量、单位时间内的新增值、预设时间内的数量均值、增长速度等数量统计信息中的一项或多项,预设时间可以根据统计需求设定,例如对某一用户观点一天内的新增文档数量进行监测,那么可以获取最近30天内的文档数据来计算每天出现的属于该用户观点的文档数量均值。[0079]步骤11,根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值。[00S0]步骤12,当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值时,进行异常观点预警。[0081]具体地,步骤10-12的预警方法可通过基于rbfkernel径向基核函数,RadialBasisFunctionkernel的方法实现。rbfkernel的公式形式如下:[0082]Kx,x’)=exp_a||x—x’||2[0083]首先,米用基于rbfkernel的方法,以一个月的数据为例,通过历史一个月的数据,可获取属于该用户观点的文档数量每日均值,并且获得历史一个月内所述用户观点的文档数量的标准差。计算新流入该用户观点的用户文档数量与一个月内每日文档数量均值的距离,当这样的距离大于预设阈值例如两倍的标准差时,就进行预警。[0084]这样通过根据一个用户观点在预设时间段内出现用户文档的数量均值,判断新增文档数量是否异常,从而可以通过发现这种数量上的异常来进行预警。[0085]可选的,还可以通过步骤13-15对所述用户观点的用户文档数量进行预警。[0086]步骤13,统计预设时间内所述用户观点的文档数量信息。参见步骤1〇。[0087]步骤14,根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量。[0088]步骤15,当所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。[0089]具体地,可以采用基于时间序列的方法来进行预测。时间预测方法是一种常用的对未来数量进行预测方法。常见的时间预测方法有arima方法。arima方法是一种基于历史信息来对未来进行预测的方法。可根据历史文档数量例如前三十天每天的文档数量计算得到今天的预测文档数量值。如果聚类主题中所包含的文档数远大于历史的数量,就进行报警。需要说明的是,arima方法在基于时间序列进行数量预测方面的应用可参见相关的技术文档,例如《时间序列预测技术之三一一含自变量的ARIMA模型预测》沈浩,2009-12-02等,本申请对此不再赘述。[0090]在本申请的另一个实施例中,还可以通过步骤10-15两种方式来共同对所述用户观点的用户文档数量进行预警,当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值,且所述新增文档数量与所述预测数量的差值大于第二预设阈值时,才进行异常观点预警。能够有效减少误报概率,显著提高预警的正确性。[0091]本实施例可以通过对用户文档进行聚类,并提取各聚类主题所表达的用户观点,通过对预设时间内某一用户观点的用户文档数量进行分析,可以实时监测各用户观点的文档数量增长速度,在数据异常时做出预警,有利于及时发现用户观点的大规棂激增,尤其是负面观点的激增,使得企业能够在发现问题后迅速做出反应,有效避免情况恶化,提高解决问题的主动性。通过提取有效的用户意图特征增强了聚类算法的效果;使用流式聚类方法,能更好地适应实时计算,聚类更迅速准确。[0092]需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。[0093]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。[0094]应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列PGA,现场可编程门阵列FPGA等。[0095]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。[0096]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0097]尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

权利要求:1.一种用户观点的异常预警方法,其特征在于,包括:获取符合预设条件的用户文档;对所述用户文档进行聚类;提取所述聚类主题的用户观点;根据预设时间内所述用户观点的用户文档数量进行预警。2.根据权利要求1所述的方法,其特征在于,所述对所述用户文档进行聚类包括:提取所述用户文档中的用户意图特征;对所述用户意图特征进行文档相似度分析;根据文档相似度分析的结果对所述用户文档进行聚类。3.根据权利要求2所述的方法,其特征在于,所述用户意图特征包括依存特征、文本特征、动词特征和用户行为特征。4.根据权利要求1所述的方法,其特征在于,所述提取所述聚类主题的用户观点包括:对所述聚类主题中的用户文档进行词频排序;根据所述词频排序提取所述聚类主题的用户观点。5.根据权利要求1所述的方法,其特征在于,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值时,进行异常观点预警。6.根据权利要求1所述的方法,其特征在于,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;当所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。7.根据权利要求1所述的方法,其特征在于,所述根据预设时间内所述用户观点的用户文档数量进行预警包括:统计预设时间内所述用户观点的文档数量信息;根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;当所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值,且所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。8.—种用户观点的异常预警装置,其特征在于,包括:获取模块,用于获取符合预设条件的用户文档;聚类模块,用于对所述用户文档进行聚类;提取模块,用于提取所述聚类主题的用户观点;预警模块,用于根据预设时间内所述用户观点的用户文档数量进行预警。9.根据权利要求8所述的装置,其特征在于,所述聚类模块包括:提取子模块,用于提取所述用户文档中的用户意图特征;相似度分析子模块,用于对所述用户意图特征进行文档相似度分析;聚类子模块,用于根据文档相似度分析的结果对所述用户文档进行聚类。10.根据权利要求9所述的装置,其特征在于,所述提取子模块具体用于提取所述文档中的依存特征、文本特征、动词特征和用户行为特征。11.根据权利要求8所述的装置,其特征在于,所述提取模块包括:词频排序子模块,用于对所述聚类主题中的用户文档进行词频排序;观点提取子模块,用于根据所述词频排序提取所述聚类主题的用户观点。12.根据权利要求8所述的装置,其特征在于,所述预警模块包括:统计子模块,用于统计预设时间内所述用户观点的文档数量信息;计算子模块,用于根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;第一预警子模块,用于在所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值时,进行异常观点预警。13.根据权利要求8所述的装置,其特征在于,所述预警模块包括:统计子模块,用于统计预设时间内所述用户观点的文档数量信息;预测子模块,用于根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;第二预警子模块,用于当所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。14.根据权利要求8所述的装置,其特征在于,所述预警模块包括:统计子模块,用于统计预设时间内所述用户观点的文档数量信息;计算子模块,用于根据所述文档数量信息计算预设时间内所述用户观点的文档数量均值;预测子模块,用于根据所述文档数量信息对所述用户观点的新增文档数量进行预测,得到新增文档的预测数量;第三预警子模块,用于在所述用户观点的新增文档数量与所述文档数量均值的距离大于第一预设阈值,且所述新增文档数量与所述预测数量的差值大于第二预设阈值时,进行异常观点预警。

百度查询: 阿里巴巴集团控股有限公司 用户观点的异常预警方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。