买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向时序文献数据分析的方法及装置_国网山东省电力公司;国网山东省电力公司东营供电公司_201910616984.9 

申请/专利权人:国网山东省电力公司;国网山东省电力公司东营供电公司

申请日:2019-07-09

公开(公告)日:2021-04-13

公开(公告)号:CN110309291B

主分类号:G06F16/335(20190101)

分类号:G06F16/335(20190101);G06F16/34(20190101);G06F16/387(20190101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.13#授权;2019.11.01#实质审查的生效;2019.10.08#公开

摘要:本发明的目的是提供一种面向时序文献数据分析的方法及装置,将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text}。本发明突破了传统文字云可视化技术无法呈现文本单词时序特征的局限性,通过计算结果文献的时间跨度;初始化忽略单词集合和合并单词集合;提取文本单词时序特征,生成文本单词时序特征序列;返回文本单词时序特征序列,随后使用HTML5中的Canvas可视化技术对文本单词序列进行布局;获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征等步骤实现云文字可视化。

主权项:1.一种面向时序文献数据分析的方法,其特征在于:将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同时定义R:={year,title,keywords,abstract,text},依据上述集合S执行如下步骤:步骤1:计算结果文献的时间跨度;步骤2:初始化忽略单词集合和合并单词集合,在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数;步骤3:提取文本单词时序特征,生成文本单词时序特征序列W;步骤4:返回文本单词时序特征序列W。

全文数据:一种面向时序文献数据分析的方法及装置技术领域本发明属于文献数据分析技术领域,基于时序文献数据分析理论,对时序文献数据进行分析处理,探索潜藏在文献数据中研究热点的时序特征,采用嵌入式的可视化方法进行呈现。背景技术文献数据分析是研究人员进行研究工作前必须要作的一项重要任务,特别是对特定领域研究热点的准确分析是研究工作顺利进行的保障。文献数据中研究热点的分析挖掘一直是一个重要的研究方法,其中对文献数据中研究热点的时序特征分析结果更是反应研究趋势的重要数据依据。文献数据中研究热点的时序特征主要包括四种模式,分别是:新兴热点、热点消失、一直流行和反复兴起,这四种模式虽然可以通过特征分析的方法进行识别,但是通过可视化的方法对时序特征进行呈现,更符合人类的认知思维,更能在主观上让研究人员准确把握研究热点的变化趋势。目前,文献数据分析主要借助文献计量学的相关理论,结合文献数据中的常用变量,如:题目、作者、引用、关键词等,实现文献数据的热点分析,这种分析方法适用于对文献数据的统计分析需求,没有涉及文献摘要或是正文的文本数据,而文献的摘要或是正文数据分析更能准确的对热点进行反馈。传统的文字云可视化技术,通过对文本数据的分词统计,按文本单词出现频次排序筛选后,按文本单词结合出现频次数据在可视界面中绘制出来,能有效的反应研究热点在一定时间段内的热度,弥补文献计量学分析方法的不足。而传统的文字云可视化技术的不足之处在于,其可视化方法不能表达文本单词按时间粒度变化的趋势。本发明提出了一种嵌入式的文字云分析及可视化技术,通过将文本单词的词频特征嵌入到文本下端的可视编码方式,结合一种重叠检测算法,有效避免了可视结果的重叠情况,实现了文本单词时序特征的可视化。并且本发明所提出的方法能够兼顾文献的摘要以及正文所记载的单词,同时,能够更新单词集合中的单词,以明确技术研究热点变化,并且能够根据相关权重对单词进行选取后进行部分单词的可视化处理,能够节约系统资源。发明内容本发明的目的是通过以下技术方案实现的。本发明的目的是提供一种面向时序文献数据分析的方法及装置,解决了现有技术中存在的问题。本发明突破了传统文字云可视化技术无法呈现文本单词时序特征的局限性,通过将文本单词时序特征按时间粒度聚集并嵌入到文本下端的可视编码方法,结合重叠检测算法,实现了文本单词时序特征的可视化。本发明提出一种面向时序文献数据分析的方法,具体地,将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text},依据上述集合S执行如下步骤:步骤1:计算结果文献的时间跨度;步骤2:初始化忽略单词集合和合并单词集合;步骤3:提取文本单词时序特征,生成文本单词时序特征序列W;步骤4:返回文本单词时序特征序列W。进一步地:将经过所述根据检索结果获得的文献数据进行可视化处理,具体包括如下步骤:步骤5:使用HTML5中的Canvas可视化技术对文本单词序列进行布局;步骤6:获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;步骤7:在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征。进一步地:在计算结果文献的时间跨度过程中,针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间,具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。进一步地:在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。进一步地:在使用HTML5中的Canvas可视化技术对文本单词序列进行布局过程中,设定每次旋转角度为90度,针对Wn中每个文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一单词。本发明还提供一种面向时序文献数据分析的装置,具体地,数据获取装置,用于依据检索结果获得文献数据,集合划分装置:将根据检索结果获得的文献数据以n列1行的集合进行记录,所记录的文献数据集合定义为S,R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text};时间跨度计算装置,用于计算结果文献的时间跨度;单词处理装置,用于初始化忽略单词集合和合并单词集合;时序处理装置,用于提取文本单词时序特征,生成文本单词时序特征序列W;结果反馈装置,用于返回文本单词时序特征序列W。进一步地:可视化处理装置,用于将经过所述根据检索结果获得的文献数据进行可视化处理;布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;布局绘制装置,用于获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征。进一步地:时间跨度计算装置,用于计算结果文献的时间跨度,并且在计算结果文献的时间跨度过程中,针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间,具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。进一步地:单词处理装置,用于初始化忽略单词集合和合并单词集合,并且在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。进一步地:布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;并且在使用HTML5中的Canvas可视化技术对文本单词序列进行布局过程中,设定每次旋转角度为90度,针对Wn中每个文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一单词。本发明的优点在于:提出一种新颖的嵌入式文字云可视化方法,解决了传统文本云可视化方法无法呈现文本单词热度变化趋势的问题,将嵌入式文字云可视化方法应用于时序文献数据分析的任务中,借助人类的主观思维意识,以及人类视觉对颜色的敏感特性,可以快速了解当前文献数据集合的热点研究方向,以及每个研究方向的热度变化趋势。同时,根据选取时序特征序列中特定权重选取部分单词进行处理能够节约资源,便于随时修正。还能够更新单词集合中的单词,以跟踪技术发展热点。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了嵌入式文字云可视化处理流程图;附图2示出了嵌入式文字云可视化效果示例;具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本发明的实施方式,提出一种时序文献数据通常采用结构性或非结构性文本的数据格式存储,定义S为文献数据集合,R为S中一条数据记录,即:S:={R1,R2,…,Rn},n是S的长度。时序文献数据通常包含如:标题、作者列表、发表年份、DOI号、关键词、摘要等数据字段,部分文献数据会包含正文片段数据。文本单词的时序特征提取,主要涉及文本数据和时间粒度两个维度,其中文本数据包括:标题、关键词、摘要甚至正文片段等,时间粒度是文本单词频次汇总的尺度,在时序文献数据分析中通常以“年”作为时间粒度,即文献发表年份。基于文本数据和时间粒度两个维度,定义:R:={year,title,keywords,abstract,text}。基于时序文本分析,可以挖掘出文本单词对应的时序特征,定义文本单词时序特征序列为,W:={W1,W2,…,Wm},m为序列W的长度,Wi:=word,weight,seq,其中,word是文本单词,weight是word的出现频次总数,seq是word每年的出现频次数序列。文本单词时序特征提取算法步骤如下所示:计算结果文献的时间跨度。针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间。具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。初始化忽略单词集合和合并单词集合。忽略单词集合是指无学术指导意义的单词集合,主要包括常用冠词、代词等;合并单词集合是指意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。两个单词集合需要针对文献数据的领域,结合可视化结果,不断进行更新。提取文本单词时序特征,生成文本单词时序特征序列W。遍历文献数据集合S,针对每一条记录r,遍历r中每个文本单词,如果文本单词在忽略单词集合中,则跳过;如果文本单词在合并单词集合中,则对所在集合中首选单词对应的时序特征Wi的权重weight执行加一操作,并结合r的year值,更新时序特征序列seq中对应年份的值,对应的表达为:seq[r.year-minYear]+=1。返回文本单词时序特征序列W,算法结束。在时序特征序列产生后,需要进行文字云可视化处理,在文字云可视化处理过程中,将文本单词时序特征序列W按权重weight降序排序,筛选前m个文本单词,得到序列Wn,根据常量最大字体值MaxSize和常量最小字体值MinSize,以及Wn的最大权重MaxWeight和最小权重MinWeight,计算Wn中每个文本单词对应的字体值size,计算公式为:size=minSize+weight-minWeight*N,其中N是常量,N=MaxWeight-MinWeightMaxSize-MinSize。可视化过程分为三步:第一步,使用HTML5中的Canvas可视化技术对文本单词序列进行布局。设定每次旋转角度为90度,针对Wn中每个文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一下单词。第二步,获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果。第三步,在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征,针对每个文本单词,下端排列ry个矩形,其中ry是时序特征序列的长度,文本单词的长度为textWidth,矩形的长度统一为L,L对应的计算公式为:L=textWidthry,时序特征序列中的特征值使用对应的颜色值进行可视编码。经过上述步骤执行后,即可获得如附图2所示的文字云可视化效果图。同时,为了实现上述方法中的各个步骤,本发明还提出一种面向时序文献数据分析的装置,具体地,数据获取装置,用于依据检索结果获得文献数据,集合划分装置:将根据检索结果获得的文献数据以n列1行的集合进行记录,所记录的文献数据集合定义为S,R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text};时间跨度计算装置,用于计算结果文献的时间跨度;单词处理装置,用于初始化忽略单词集合和合并单词集合;时序处理装置,用于提取文本单词时序特征,生成文本单词时序特征序列W;结果反馈装置,用于返回文本单词时序特征序列W。进一步地:可视化处理装置,用于将经过所述根据检索结果获得的文献数据进行可视化处理;布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;布局绘制装置,用于获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征。进一步地:时间跨度计算装置,用于计算结果文献的时间跨度,并且在计算结果文献的时间跨度过程中,针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间,具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。进一步地:单词处理装置,用于初始化忽略单词集合和合并单词集合,并且在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。进一步地:布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;并且在使用HTML5中的Canvas可视化技术对文本单词序列进行布局过程中,设定每次旋转角度为90度,针对Wn中每个文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一下单词。通过设置上述各个装置,能够具体实现文字云的可视化过程。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

权利要求:1.一种面向时序文献数据分析的方法,其特征在于:将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text},依据上述集合S执行如下步骤:步骤1:计算结果文献的时间跨度;步骤2:初始化忽略单词集合和合并单词集合;步骤3:提取文本单词时序特征,生成文本单词时序特征序列W;步骤4:返回文本单词时序特征序列W。2.根据权利要求1所述的一种面向时序文献数据分析的方法,其特征在于:将经过所述根据检索结果获得的文献数据进行可视化处理,具体包括如下步骤:步骤5:使用HTML5中的Canvas可视化技术对文本单词序列进行布局;步骤6:获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;步骤7:在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征。3.根据权利要求1所述的一种面向时序文献数据分析的方法,其特征在于:在计算结果文献的时间跨度过程中,针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间,具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。4.根据权利要求1所述的一种面向时序文献数据分析的方法,其特征在于:在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。5.根据权利要求2所述的一种面向时序文献数据分析的方法,其特征在于:在使用HTML5中的Canvas可视化技术对文本单词序列进行布局过程中,设定每次旋转角度为90度,针对文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一单词。6.一种面向时序文献数据分析的装置,其特征在于:数据获取装置,用于依据检索结果获得文献数据,集合划分装置:将根据检索结果获得的文献数据以n列1行的集合进行记录,所记录的文献数据集合定义为S,R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text};时间跨度计算装置,用于计算结果文献的时间跨度;单词处理装置,用于初始化忽略单词集合和合并单词集合;时序处理装置,用于提取文本单词时序特征,生成文本单词时序特征序列W;结果反馈装置,用于返回文本单词时序特征序列W。7.根据权利要求6所述的一种面向时序文献数据分析的装置,其特征在于:可视化处理装置,用于将经过所述根据检索结果获得的文献数据进行可视化处理;布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;布局绘制装置,用于获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征。8.根据权利要求6所述的一种面向时序文献数据分析的装置,其特征在于:时间跨度计算装置,用于计算结果文献的时间跨度,并且在计算结果文献的时间跨度过程中,针对文献数据集合S,提取时间维度信息,计算时间维度的跨度,即起止时间,具体方法是,遍历S中数据记录R的year数据字段,计算最大年份值maxYear和最小年份值minYear,则时间跨度ry=maxYear-minYear+1,其中ry将决定文本单词时序特征中seq的长度。9.根据权利要求6所述的一种面向时序文献数据分析的装置,其特征在于:单词处理装置,用于初始化忽略单词集合和合并单词集合,并且在初始化忽略单词集合和合并单词集合过程中,忽略无学术指导意义的冠词以及代词,同时,将意义相近或相似的单词及其同义词作为一个词集,同一个词集中的单词在统计词频时,当做一个统计参数。10.根据权利要求7所述的一种面向时序文献数据分析的装置,其特征在于:布局处理装置,用于使用HTML5中的Canvas可视化技术对文本单词序列进行布局;并且在使用HTML5中的Canvas可视化技术对文本单词序列进行布局过程中,设定每次旋转角度为90度,针对文本单词,结合单词字体值,循环查找画布中的空闲位置,找到合适的空闲位置后,绘制在画布中,并在单词下端绘制单词等长且固定比例的线段,再遍历下一单词。

百度查询: 国网山东省电力公司;国网山东省电力公司东营供电公司 一种面向时序文献数据分析的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。