买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置_中国科学院软件研究所_201710694112.5 

申请/专利权人:中国科学院软件研究所

申请日:2017-08-15

公开(公告)日:2020-07-24

公开(公告)号:CN107688870B

主分类号:G06Q10/04(20120101)

分类号:G06Q10/04(20120101);G06Q40/04(20120101);G06F16/2458(20190101);G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.24#授权;2018.03.13#实质审查的生效;2018.02.13#公开

摘要:本发明涉及一种基于文本流输入的深度神经网络的可视化分析方法及装置,包括:设计实现一个基于文本输入的分层深度神经网络结构;使用标签相关性传播算法LRP得到每一层因素factor对于预测结果的权重,进而从中提取重要的因素;对得到的重要因素进行聚类,以得到整体的聚类信息,进而构建因素层次结构;对结果进行可视化,在可视化中,将预测结果与因素聚类结果并列展示,聚类结果可以进一步展开直至最小粒度的因素。采用本发明,通过分层的因素分析方法,可以帮助用户更好的分析深度神经网络的结果和运行机制。

主权项:1.一种基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于,包括以下步骤:1设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;2使用标签相关性传播算法LRP获得步骤1中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的因素作为重要因素;3对步骤2得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;4对步骤1中的预测结果以及步骤3得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。

全文数据:一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置技术领域[0001]本发明涉及深度学习和可视化领域,具体地说,涉及一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置。背景技术[0002]深度学习技术正在改观大数据研究领域的预测分析,并且已经在图像和语音识另IJ、知识问答、机器翻译以及其他很多应用领域取得了重大突破。通常,深度学习方法是将输入数据经由多层神经网络结构,如前馈神经网络、卷积神经网络(CNN、循环神经网络RNN等,通过多次的迭代训练,最终得到学习模型。[0003]然而,相对于传统的机器学习方法,如线性回归和支持向量机,深度学习模型有一个众所周知的缺陷,即它难以解释。这个缺陷使得难以理解深度学习模型和进一步分析。在有些领域,例如图像识别,深度学习的原理已经被部分解释。例如,从基本的视觉特征到图案最后到对象的细节特区提取。在大多数其他领域,对于深度学习模型如何工作仍然只有很少的线索。例如在文本预测中,文本输入的使用引入了额外的词向量步骤来将文本集合映射到特征空间,使得解释预测模型更加困难。[0004]以股票预测为例,已经证实金融新闻和推特等文本数据对股市走势的预测是有用的。例如,雅虎金融新闻“Amazonprofitbeatsforecasts”会伴随着亚马逊股价的激增,而“Oilpricehitsarecordhigh”则引发了对汽车行业的担忧并且削弱了他们在股市的表现。过去的使用大量金融新闻以及深度神经网络的工作已经在每日股价的预测上达到了高于60%的准确率。然而,金融用户(如交易者,投资者等)不能直接运用深度学习的结果。第一,这些用户通常已经建立了他们自己的一系列交易规则,并且不会依赖单一的不可知的预测算法。第二,他们的交易通常是小时级甚至是分钟级的,然而在研究领域,为了和交易的新闻周期一致,基于文本的预测是按天运行的。因此,金融领域用户只有理解了预测模型并且将模型中学到的知识与自己在股市的领域经验相结合,才能从深度学习技术中受益。[0005]为了更好的理解深度学习模型的运行机制,近几年出现了一些深度神经网络的可视化的方法,如Google公司的TensorflowPlayground提供了一个在线可视化工具来帮助非领域专家理解深度学习模型的结构和训练过程。但是之前的工作大多集中于使用卷积神经网络的图像分类领域,来帮助理解神经网络的结构,而没有展示文本流与预测值的关联关系方面的工作。[0006]另外,在可视化展示文本数据与预测结果的相关性时,通常文本数据量很大,在这种情况下,由于计算机显示器屏幕大小有限,不可能同时向用户展示全部文本数据。如果采用按照相关性排序的方式,则只能对文本数据的一部分进行显示,这就缺少了相关文本的整体情况。发明内容[0007]本发明技术解决问题:克服现有技术的不足,提供一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置,通过分层因素的展示和分析,可以将输入文本数据与模型预测结果的关系予以展示,并进一步通过添加重要关键词、逐级展开因素以及查看原始文本数据等交互,以帮助用户分析和理解深度学习模型的结果。[0008]本发明技术解决方案:一种基于文本流输入的深度神经网络的分层因素可视化分析方法,包括以下步骤:[0009]1设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;[0010]2使用标签相关性传播算法LRP获得步骤⑴中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;[0011]3对步骤2得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;[0012]⑷对步骤⑴中的预测结果以及步骤3得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。[0013]所述步骤(1中的深度神经网络的模型为分层结构,具体结构如下:共有四层,分别是词向量层、词组向量层、标题向量层和回归网络层,从文本数据到最终预测结果,词向量层以原始文本数据作为输入,并将其中每个单词转换成一个实数的词向量;词组向量层在以上词向量的基础上构建相邻两单词组成的词组的向量;标题向量层汇总标题,包括新闻标题、推文中出现的所有词组向量,并构建标题的向量表示;回归网络层接收标题向量层的输出,并通过一个带有残差连接项的前向神经网络将接收到的标题向量层的输出映射到一个实数预测值。[0014]所述步骤⑵中,使用标签相关性传播算法获得步骤⑴中设计的深度神经网络中每一层因素对于预测结果的权重,实现如下:[0015]1将第1层的第i个神经元记作,其相关性分数记作,将神经网络训练时前向过程中从神经元倒神经元的信息贡献函数定义为—,最后一层的相关性分数为预测结果,首先计算经过传播到的相关性分数增量为:[0016][0017]再按照此公式计算第1层的所有神经元传播到的相关性分数增量;[0018]2累加步骤(1得到的相关性分数增量即得到第1-1层的神经元Rj的相关性分数,即:[0019][0020]按照此方法可得到1-1层每个神经元的标签相关分数[0021]⑶将1-1层得到的相关性分数按⑴(2中同样的规则传播到第1-2层,得到1-2层的相关性分数,由1-2层得到的相关性分数按照同样的规则传播到1-3层,得到1-3层的相关性分数,不断计算直至得到第一层的相关性分数,这样便得到每一层因素的相关性分数,从中选取相关性分数绝对值大于某个阈值的因素作为重要因素。[0022]步骤⑶中,聚类采用k-means聚类算法,具体实现如下:[0023]1对步骤2得到每个重要因素,即影响权重绝对值较大的关键词,在语义空间上找到它的最相近的η个关键词,然后将这些关键词的相关性向量加和作为该关键词最终的向量;[0024]2在向量的空间中选取任意k个点为中心进行聚类,分别计算每个点距离各个中心点的位置,距离同一个中心点最近的点被归为一类,每类中所有点的中心点作为新的聚类中心点。聚类中心的每次更新为一次迭代,迭代一定次数后算法终止,得到k个聚类结果;[0025]3选用轮廓测量Silhouettemeasure方法来评价上述聚类结果的效果,选取最优的聚类个数和聚类结果。[0026]所述k取2到15。[0027]步骤⑷中,联动可视化展示采用以下情形的任意一种:[0028]m.当显示被预测值序列的页面时,在图表信息中突出实际值与预测值及其差别;[0029]η.当显示被预测值序列的页面时,同时显示相应因素的时序曲线,突出两者之间的相关性;[0030]0.当改变被预测值序列的时间区间时,相应改变相应因素的曲线;[0031]Ρ.使用共用时间轴的方式对时序预测值和输入文本流因素进行联动的显示;[0032]q.使用降维技术和散点图对文本因素的分布情况进行显示;[0033]r.使用可以展开的树形结构展示文本因素,将文本因素的聚类按层次展开;[0034]s.使用文档列表的展示方式来联动的显示选中时间片段对应的原始文本数据;[0035]t.优选地,在上述文本流因素的视图中添加该因素与预测值的互相关系数曲线来展示该因素的影响;[0036]u.优选地,将层次因素视图与散点图联动的显示,在上述散点图中突出显示包含选中因素视图中的因素的点;[0037]v.展开因素曲线的视图至下一层次的因素时序图;[0038]w.输入新的关键词因素,并提交到系统,系统增加该关键词的时序图;[0039]X.对因素视图进行排序,可以按照其相关性大小或正负进行排序。[0040]—种基于文本流输入的深度神经网络的分层因素可视化分析装置,包括基于文本流输入的深度神经网络模型、重要因素提取器、因素动态聚类构造器和可视化引擎;[0041]基于文本流输入的深度神经网络模型:设计一个基于文本流输入的深度神经网络模型,使用训练集和开发集上的文本流数据训练该深度神经网络模型,使用已训练好的深度神经网络模型在测试集上进行预测,得到预测结果;[0042]重要因素提取器:使用标签相关性传播算法得到输入的文本因素对预测结果的权重大小,从中提取权重绝对值大于设定阈值作为重要因素;[0043]因素动态聚类构造器:对重要因素进行聚类和分析,得到关键词聚类结果;重要因素层次结构共包含四层:包含所有相关单词的关键词聚类、关键词本身、由关键词组成的二元词组以及原始的文档,所述文档来源包括新闻、推特,所述因素动态聚类构造器包括:[0044]a.关键词选取单元,用于在用户指定的时间区间内查询对应的关键词并形成关键词及其相关性分数的列表;[0045]b.聚类器,对a中的关键词进行聚类,得到关键词聚类结果;[0046]可视化引擎:用于对因素动态聚类构造器获取到的重要因素和基于文本流输入的深度神经网络模型得到的预测结果进行可视化处理,生成可视聚类信息,以及将影响权重绝对值大于设定阈值的文本因素与预测结果的关联性联动地显示在浏览器上。[0047]本发明与现有技术相比的优点在于:[0048]1使用了新闻、年报、推特三种数据源。新闻数据真实可靠,年报数据选取第七章MDM管理层讨论与分析)内容,内容专业丰富,推特数据则更加丰富立体。[0049]2使用标签相关性传播模型得到每一层包含的因素和最终预测值的相关性大小,得到了对应的文本输入对预测结果的影响大小,进而帮助分析模型结果。[0050]3对关键词聚类采用改进的k-means算法,算法使用表示关键词语义的词向量和代表关键词对预测结果随时间变化的贡献的相关性得分向量两种度量指标,对每个关键词,首先在语义空间上找到它的最相近的η个关键词,然后将它们的相关性向量加和作为该关键词最终的向量。这使得关键词的稀疏问题得到解决。同时算法将聚类个数设为2到15,选用了轮廓测量Silhouettemeasure方法来评价聚类的效果,然后从中选取最优的聚类个数和聚类结果。[0051]⑷可视化系统中人与系统可进行充分丰富的交互,用户更容易看到预测结果、分析预测结果与文本数据之间的联系。[0052]5实验数据表明,本发明系统能够帮助用户更快更加准确的预测第二天股票涨跌的情况。使用其他系统的准确性为〇.77±0.42,使用本系统的准确性为0.84±0.37;使用其他系统完成所规定的可视化任务的时间为73.7±62.6,使用本发明系统的时间为71.8±33.9。在用户对系统的体验评分中,其他系统的平均得分为4.81,本发明的得分为5.13。由数据看出本发明系统拥有更高的准确性和较好的用户体验效果。附图说明[0053]图1是根据本发明的一个实施例的基于文本输入的股票预测模型的分层因素可视化方法的流程图;[0054]图2是根据本发明的一个实施例的深度神经网络的股票预测模型结构的示意图;[0055]图3是根据本发明的一个实施例的用于获得每一层因素的相关性大小的标签相关性传播算法LRP的示意图;[0056]图4是根据本发明的一个实施例的因素层次的示意图;[0057]图5是根据图1所示的实施例的股票预测模型结果的可视化系统的显示的示意图。具体实施方式[0058]相信通过以下结合附图对本发明的具体实施例的详细描述,本发明的上述和其他目的、特征和优点会变得更明显。[0059]图1是根据本发明的一个实施例的基于文本输入的股票预测模型的分层因素可视化方法的流程图。[0060]如图1所示,首先获取了SP标准普尔指数500家公司的历史股价数据以及相关的新闻、推特和年报数据。在得到三源文本数据新闻、推特、年报之后,首先对这些数据进行预处理,得到每个公司各自的三源文本数据。对新闻数据,维护了一个公司相关的关键词列表,对每个公司的关键词列表和新闻正文进行匹配,从而得到新闻与各个公司的关联关系;对推特数据,根据每条推文中$符号后面的公司代码来匹配相对应的公司;对年报数据,可以直接得到每家公司的年度报表,然后抽取其中第七章MDM管理层讨论与分析)内容。[0061]在获取了所需的数据之后,在第二步,构建了一个基于深度神经网络的股票预测模型(图2所示),以三源文本数据为输入来预测股价的变化,具体地说,是用前一天的文本数据来预测第二天股价的涨跌情况。[0062]第三步,使用标签相关性传播模型(图3所示得到每一层包含的因素和最终预测值的相关性大小,进而帮助分析模型结果。[0063]第四步,对上一步骤得到的每一层因素进行处理,构建因素层次结构(图4所示)。为了构建因素层次结构,最大的挑战就是对关键词进行适当地聚类以形成最初的因素总览视图。在本场景中,有两个属性可以作为关键词聚类的度量指标:表示关键词语义的词向量和代表关键词对预测结果随时间变化的贡献的相关性得分向量。通过分析,单独使用任意一种,都会由于关键词的稀疏问题而不能很好地聚类。因此,优选地,选择同时使用两种度量的融合方法,即对每个关键词,首先在语义空间上找到它的最相近的η个关键词,然后将它们的相关性向量加和作为该关键词最终的向量。在本实施例中,优选地,采用k均值k-means算法作为聚类算法。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。在使用k-means方法进行聚类时,另一个问题就是如何确定最优的聚类个数。这里选用了轮廓测量Silhouettemeasure方法来评价聚类的效果。在聚类过程中,将聚类个数设为2到15,然后从中选取最优的聚类个数和聚类结果。[0064]在此,k-means算法仅仅是作为聚类算法的一个例子,本领域的技术人员可以采用其他任何核实的聚类算法对因素进行聚类。[0065]第五步,在得到各公司的历史股价、预测股价以及相关的层次因素等数据之后,在可视化系统(图5所示上进行统一展示,并加入丰富的交互,从而帮助用户更容易的看到预测结果和分析预测结果与文本数据之间的联系。[0066]通过以上描述可以看出,采用本实施例的基于文本输入的深度股票预测模型的可视化方法,通过分层的模型设计以及每层因素的相关性计算和因素层次展示,可以方便用户从整体上理解基于深度神经网络的股票预测模型。[0067]参照图2所示的采用图1所示实施例的深度股票预测模型的示意图,详细说明实际应用本实施例的股票预测的方法。[0068]如图2所示,该例子使用了深度神经网络,为了更好地用户可视化解释,对模型进行了一下三方面的优化。第一,明确地从输入文本集合里抽取了层次的、容易理解的向量表示,即词向量、二元词组向量和标题向量,这对可视化大量的文本因素提供了便利;第二,尽管特征数量远远多于训练数据的数量,采用了一系列技术方法来防止过拟合,如dropout等;第三,由于分层的模型设计加长了回传的路径,引入了残差连接项来加速训练过程。[0069]图2中的词向量层,会将文本输入中的单词转换成一个高维实数稠密向量,即词向量。如果两个单词的词向量在高维空间很相近,那么他们也有着相似的语义。在新闻数据集上预训练了50维的词向量。为了防止过拟合,在词向量上应用了dropout。Dropout的主要思想是随机地以给定的概率来使一部分神经元失效,从而提高神经网络的通用性。[0070]在第二层的二元词组向量层,会得到相邻两个单词组成的词组的向量表示。对于一个二元词组B=W1W2,其中单词Wl和W2对应的词向量分别是Vl和V2,那么可以通过以下公式来得到词组B的向量V:V=tanhV1+V2。通过这一步,可以在不引入新的学习参数的情况下仍然保留文本数据中单词的局部顺序。[0071]标题向量层会得到每个句子如新闻标题或推文)的向量表示,然后将当天所有标题的向量汇总成最终的向量。标题向量tj是通过求和池化层sumpoolinglayer得到,即将标题中所有二元词组的向量相加,公式如下:[0072][0073]其中,心是标题中包含的词组的数量,1¾是第j个标题的第k个词组向量。然后通过一个平均池化层averagepoolinglayer得到当天的向量表示s:[0074][0075]η表示当天所有新闻标题向量的个数。在平均池化之前,采用了dropout操作来防止过拟合,这里的dropout操作是以给定的概率将标题向量置为零向量。[0076]在前向回归层中,使用了带有残差连接项的tanh层h来将每天的向量s映射成当天的最后预测股价[0079]¥1^°彳,1是回归模型中的参数。通过将8直接加到七1111层的输出,可以有效地加速梯度从输出向量h到标题向量层的s的回传。[0080]图3是根据本发明的另一个实施例的标签相关性传播算法LRP的模型的示意图。下面结合该附图对本实施例进行详细描述。[0081]LRP模型的目的是计算每一层因素单词、词组、标题与预测结果的相关性分数,该分数表示了因素对当天的股价预测结果做出了多少贡献。LRP模型的思想是使用类似梯度反向传播的方式,将相关性分数从最终的输出层反向传播到输入层,其中添加一些限制来确保有效传播。[0082]正式地,将第t天的预测结果设为ft,用Rtw表示单词w在第t天的相关性大小,LRP模型会将该预测值分解到所有输入的因素如单词)的相关性分数:[0083][0084]其中,Dt是前一天的与公司相关的文本数据集合如新闻)几w0表示单词w对预测股价上涨起到了正向的作用。反之,Rtw〈0表示单词w对预测股价上涨起到了反向的作用。[0085]标签相关性传播算法的传播规则就是通过训练好的神经网络模型中的信息贡献函数将第1层的神经元的相关性分数回传到前一层1-1层的每一个神经元上。将这个前向过程中从神经元:的信息贡献函数定义为。那么,从传播到的相关性分数就是:[0086][0087]第1-1层的神经元心的总的相关性分数就是:[0088][0089]在回归层,有很多可行的相关性传播规则。优选地,采用ε规则,因为它很简单并且效果很好。[0090]举例来说,在一个单层网络fs=tanhw*s+b中,s是输入向量,w和b是神经网络的参数,输出层的相关性分数Rf会分解成输入层s中的每个神经元k的相关性分数RSk。ε规则定义如下:[0091][0092]其中,ε是一个很小的整数,来保证公式在w*s+b趋近0时的稳定性。[0093]注意到EkRSkRf,是因为参数b也对预测股票涨跌起到了作用。这里b起到的作用可以看作为股价被非文本信息影响的涨跌变化。从另一方面来看,赋予b的相关性分数标示了使用文本预测股价的风险。相关性分数Rb可以给定如下:[0094][0095]最终,通过标签相关性传播模型,可以得到每一层因素单词、词组、标题)的相关性分数。[0096]图4是根据本发明的另一个实施例的因素层次分析的示意图。第一层为对预测结果影响权重大于某个阈值的关键词的聚类,第二层为各个展开的关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;因素随时间变化的相关性分数可以与预测股价作对比,因此计算了两时序数据间的互相关系数crosscorrelation。[0097]参照图5所示的基于股票预测模型的可视化系统的界面示意图,详细说明实际应用本实施例的分析深度学习模型结果的可视化方法的示例。[0098]如图5所示,该例子使用本领域普通技术人员熟知的chrome浏览器,通过最上一行可以看到用户查看的公司是苹果公司AppleInc.,数据来源是新闻文本。系统界面分为四部分a,b,c,d。[0099]在图5中的(a中,股价曲线图采用总览加细节的设计来方便的选取时间和查看。图5中的(b展示了因素层次结构,通过和股价曲线在时间轴上对齐,每个因素随时间变化的贡献也一目了然。图5中的(d用一个关键词映射视图展示了相关的重要的关键词,这里提供了MDS和tSNE两种方法来将高维向量映射到二维空间上。当选取了一段时间之后,对应的文本文档新闻、推文等会显示在文档视图(即图5中的C中。[0100]提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

权利要求:1.一种基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于,包括以下步骤:1设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;2使用标签相关性传播算法LRP获得步骤1中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;3对步骤2得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;⑷对步骤⑴中的预测结果以及步骤3得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。2.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤⑴中的深度神经网络的模型为分层结构,具体结构如下:共有四层,分别是词向量层、词组向量层、标题向量层和回归网络层,从文本数据到最终预测结果,词向量层以原始文本数据作为输入,并将其中每个单词转换成一个实数的词向量;词组向量层在以上词向量的基础上构建相邻两单词组成的词组的向量;标题向量层汇总标题,包括新闻标题、推文中出现的所有词组向量,并构建标题的向量表示;回归网络层接收标题向量层的输出,并通过一个带有残差连接项的前向神经网络将接收到的标题向量层的输出映射到一个实数预测值。3.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤2中,使用标签相关性传播算法获得步骤⑴中设计的深度神经网络中每一层因素对于预测结果的权重,实现如下:1将第1层的第i个神经元记作.其相关性分数记作|,将神经网络训练时前向过程中从神经元‘到神经元_的信息贡献函数定义为,最后一层的相关性分数为预测结果,首先计算ff经过辦传播到的相关性分数增量为:Cl再按照此公式计算第1层的所有神经元传播致的相关性分数增量;2累加步骤⑴得到的相关性分数增量即得到第1-1层的神经元Rj的相关性分数即:2按照此方法可得到1-1层每个神经元的标签相关分数⑶将1-1层得到的相关性分数按⑴⑵中同样的规则传播到第1-2层,得到1-2层的相关性分数,由1-2层得到的相关性分数按照同样的规则传播到1-3层,得到1-3层的相关性分数,不断计算直至得到第一层的相关性分数,这样便得到每一层因素的相关性分数,从中选取相关性分数绝对值大于某个阈值的因素作为重要因素。4.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:步骤⑶中,聚类采用k-means聚类算法,具体实现如下:1对步骤2得到每个重要因素,即影响权重绝对值较大的关键词,在语义空间上找到它的最相近的η个关键词,然后将这些关键词的相关性向量加和作为该关键词最终的向量;2在向量的空间中选取任意k个点为中心进行聚类,分别计算每个点距离各个中心点的位置,距离同一个中心点最近的点被归为一类,每类中所有点的中心点作为新的聚类中心点。聚类中心的每次更新为一次迭代,迭代一定次数后算法终止,得到k个聚类结果;3选用轮廓测量Silhouettemeasure方法来评价上述聚类结果的效果,选取最优的聚类个数和聚类结果。5.根据权利要求1所述的基于文本输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述k取2到15。6.根据权利要求1所述的基于文本输入的深度神经网络的分层因素可视化分析方法,其特征在于:步骤⑷中,联动可视化展示采用以下情形的任意一种:a.当显示被预测值序列的页面时,在图表信息中突出实际值与预测值及其差别;b.当显示被预测值序列的页面时,同时显示相应因素的时序曲线,突出两者之间的相关性;c.当改变被预测值序列的时间区间时,相应改变相应因素的曲线;d.使用共用时间轴的方式对时序预测值和输入文本流因素进行联动的显示;e.使用降维技术和散点图对文本因素的分布情况进行显示;f.使用可以展开的树形结构展示文本因素,将文本因素的聚类按层次展开;g.使用文档列表的展示方式来联动的显示选中时间片段对应的原始文本数据;h.优选地,在上述文本流因素的视图中添加该因素与预测值的互相关系数曲线来展示该因素的影响;i.优选地,将层次因素视图与散点图联动的显示,在上述散点图中突出显示包含选中因素视图中的因素的点;j.展开因素曲线的视图至下一层次的因素时序图;k.输入新的关键词因素,并提交到系统,系统增加该关键词的时序图;l.对因素视图进行排序,可以按照其相关性大小或正负进行排序。7.—种基于文本流输入的深度神经网络的分层因素可视化分析装置,其特征在于:包括基于文本流输入的深度神经网络模型、重要因素提取器、因素动态聚类构造器和可视化引擎;基于文本流输入的深度神经网络模型:设计一个基于文本流输入的深度神经网络模型,使用训练集和开发集上的文本流数据训练该深度神经网络模型,使用已训练好的深度神经网络模型在测试集上进行预测,得到预测结果;重要因素提取器:使用标签相关性传播算法得到输入的文本因素对预测结果的权重大小,从中提取权重绝对值大于设定阈值作为重要因素;因素动态聚类构造器:对重要因素进行聚类和分析,得到关键词聚类结果;重要因素层次结构共包含四层:包含所有相关单词的关键词聚类、关键词本身、由关键词组成的二元词组以及原始的文档,所述文档来源包括新闻、推特,所述因素动态聚类构造器包括:a.关键词选取单元,用于在用户指定的时间区间内查询对应的关键词并形成关键词及其相关性分数的列表;b.聚类器,对a中的关键词进行聚类,得到关键词聚类结果;可视化引擎:用于对因素动态聚类构造器获取到的重要因素和基于文本流输入的深度神经网络模型得到的预测结果进行可视化处理,生成可视聚类信息,以及将影响权重绝对值大于设定阈值的文本因素与预测结果的关联性联动地显示在浏览器上。

百度查询: 中国科学院软件研究所 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。