买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多维矢量数据的网络数据挖掘方法和系统_中科金联(北京)科技有限公司_201910305243.9 

申请/专利权人:中科金联(北京)科技有限公司

申请日:2019-04-16

公开(公告)日:2021-07-16

公开(公告)号:CN110096529B

主分类号:G06F16/2458(20190101)

分类号:G06F16/2458(20190101);G06F16/28(20190101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.16#授权;2019.08.30#实质审查的生效;2019.08.06#公开

摘要:本发明涉及一种基于多维矢量数据的网络数据挖掘方法和系统。方法包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。

主权项:1.一种基于多维矢量数据的网络数据挖掘方法,其特征在于,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性,计算每两个信息数据族之间的关联度,确定与事件关联度高的信息族,以及信息族中主要的信息元素,统计信息数据族中行为、关系和位置分量的分布情况,确定与事件关联度高的行为、关系和或位置信息,从而对事件作出正确的研判;其中,将行为、关系和位置分别作为三维空间的X、Y和Z轴,所述多维矢量数据源表示为DATAa,r,p,a为行为信息分量,r为关系信息分量,p为位置信息分量。

全文数据:一种基于多维矢量数据的网络数据挖掘方法和系统技术领域本发明属于数据挖掘技术领域,具体涉及一种基于多维矢量数据的网络数据挖掘方法和系统。背景技术在互联网时代,随着移动互联网的普及和广泛应用,任何一个的事件都会在网络空间上产生大量的网络信息,包括但不限于自媒体用户公众号、微博、朋友圈、短视频、图片等相关内容。这些信息的特点是:信息量大、内容繁杂、形式多样、増长速度快、传播速度快、交互功能强。但是,由于这些网络信息零碎、分布范围广、多语种、无序、缺乏统一的数据库管理,因此试图人工从这些数据中还原事件的演化过程、发现关键环节、消除不良舆论影响较为困难。现有技术中提出了采用数据挖掘技术分析热点事件网络信息的技术方案。以网络空间中提取的热点事件关键词为依托,通过与物理空间的数据集进行协同聚类,根据聚类结果提取物理空间与热点事件相关的信息样本,让用户可以快速、全面了解热点事件的相关信息。然而,随着关键词数量增多,一方面协同聚类运算复杂度提高,难以快速获得聚类结果,另一方面缺少不同类型关键词之间的关联性分析,导致分析不够全面,数据挖掘效率较低。发明内容为了解决上述的聚类运算复杂度高,难以快速获得聚类结果,数据分析不够全面,数据挖掘效率较低的技术问题,本发明提出了一种基于多维矢量数据的网络数据挖掘方法和系统。一种基于多维矢量数据的网络数据挖掘方法,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。进一步地,所述多维矢量数据源表示为DATAa,r,p,a为行为信息分量,r为关系信息分量,p为位置信息分量。进一步地,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。进一步地,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和或位置信息。进一步地,还包括:计算信息数据族中代表行为、关系和或位置分量的多个关键词与事件中代表行为、关系和或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和或位置信息。一种基于多维矢量数据的网络信息挖掘系统,包括:矢量化模块,用于将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,搜索模块,用于根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,聚类分析模块,用于对汇总的搜索结果进行聚类分析,产生信息数据族集合,关联度分析模块,用于对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。进一步地,所述多维矢量数据源表示为DATAa,r,p,a为行为信息分量,r为关系信息分量,p为位置信息分量。进一步地,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。进一步地,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和或位置信息。进一步地,所述关联度分析模块还用于计算信息数据族中代表行为、关系和或位置分量的多个关键词与事件中代表行为、关系和或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和或位置信息。本发明的有益效果:通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。本发明实施例提出的方法和系统可用于网络信息的控制,例如,为用户提供热点事件的相关信息或者可能感兴趣的内容。附图说明图1是根据本发明实施例提出的事件的信息三维空间示意图;图2是根据本发明实施例提出的基于多维矢量数据的网络数据挖掘方法的方法流程图;图3是根据本发明实施例提出的一种二维分布的聚类结果示意图;图4是根据本发明实施例提出的一种基于多维矢量数据的网络数据挖掘系统方框图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。但本领域技术人员知晓,本发明并不局限于附图和以下实施例。本发明实施例提出了一种基于多维矢量数据的网络数据挖掘方法。移动互联网时代,在社会上已经产生了影响的事件,将产生大量的网络信息。每一个事件可以包含多个信息集合,例如行为action集合、关系relationship集合和位置position集合等。行为是指人们一切有目的的活动,由一系列简单动作构成的,通常表现出来的一切动作的统称。关系是指人与人之间,人与事物之间,事物与事物之间的相互联系。位置是指确定的地理位置。事件的信息集合ei可以表示为三个子集之和,即:{∑ak+∑rn+∑pm}∈ei。其中,[iknm]=1,2……n,∑ak为行为信息子集,∑rn为关系信息子集,∑pm为位置信息子集。如图1所示,通过将行为、关系和位置作为三维空间中的X,Y,Z轴,可以在三维空间中描述一个事件的信息集合。事件信息来源于信息源,因而事件信息集合ei也来源于信息源。每一个信息源可以包含行为信息子集、关系信息子集和位置信息子集中的一种或多种。图2是根据本发明实施例提出的一种基于多维矢量数据的网络数据挖掘方法。如图2所示,在步骤210中,将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源。以三维矢量数据源为例,将行为、关系和位置作为三维空间中的X,Y,Z轴,三维矢量数据源可以表示为DATAa,r,p,即三维空间中的一个点。从事件信息的原点到这个点的向量,代表了网络信息矢量化。如果网络信息数据源中只包含行为信息子集、关系信息子集和位置信息子集中的一种或两种,不包含的信息子集分量则表示为0。例如网络信息数据源包含行为信息子集、关系信息子集,则三维矢量数据源表示为DATAa,r,0。可以选择更多的维度构建多维矢量数据。在步骤220中,根据设定条件搜索多个多维矢量数据源,获得多个网络信息数据源的矢量信息。可以采用多次迭代搜索的方式进行搜索,例如在完成第一次搜索后,将得到的结果作为搜索元素再进行搜索。迭代次数一般不超过3次。完成搜索后,将搜索结果进行汇总。在步骤230中,对汇总的搜索结果进行多种参数的聚类分析,获得多样式分布的聚类结果,产生信息数据族的集合。如图3所示,分别使用基于密度和基于网格搜索迭代次数作为网格的标尺的方法进行聚类分析,得到二维分布的聚类结果,聚类结果包括多个信息数据族,每个信息数据族都分别包含了具有矢量信息的信息元素。在步骤240中,对每一个信息数据族的空间矢量分布进行统计,进行关联度分析获得网络数据的关联性。通过关联度分析,确定与事件关联度高的信息族,以及信息族中主要的信息元素,从而对事件作出正确的研判。计算每两个信息数据族之间的关联度,确定哪些信息族与事件的关联度高。两个信息族之间的距离越近,其关联度越高。统计信息数据族中行为、关系、位置分量的分布情况,确定哪些行为、关系、位置与事件关联度较高。计算信息数据族中代表行为关系位置分量的多个关键词与事件中行为关系位置分量多个关键词的重合度,并进行归一化处理。将归一化后重合度较大的关键词作为与时间关联度较高的行为关系位置元素。通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。本发明实施例还提出了一种基于多维矢量数据的网络数据挖掘系统。图4是根据本发明实施例提出的一种基于多维矢量数据的网络数据挖掘系统。如图4所示,网络数据挖掘系统包括矢量化模块410,用于将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源。以三维矢量数据源为例,将行为、关系和位置作为三维空间中的X,Y,Z轴,三维矢量数据源可以表示为DATAa,r,p,即三维空间中的一个点。从事件信息的原点到这个点的向量,代表了网络信息矢量化。如果网络信息数据源中只包含行为信息子集、关系信息子集和位置信息子集中的一种或两种,不包含的信息子集分量则表示为0。例如网络信息数据源包含行为信息子集、关系信息子集,则三维矢量数据源表示为DATAa,r,0。可以选择更多的维度构建多维矢量数据。网络数据挖掘系统包括搜索模块420,用于根据设定条件搜索多个多维矢量数据源,获得多个网络信息数据源的矢量信息。可以采用多次迭代搜索的方式进行搜索,例如在完成第一次搜索后,将得到的结果作为搜索元素再进行搜索。迭代次数一般不超过3次。完成搜索后,将搜索结果进行汇总。网络数据挖掘系统包括聚类分析模块430,用于对汇总的搜索结果进行多种参数的聚类分析,获得多样式分布的聚类结果,产生信息数据族的集合。分别使用基于密度和基于网格搜索迭代次数作为网格的标尺的方法进行聚类分析,得到二维分布的聚类结果,聚类结果包括多个信息数据族,每个信息数据族都分别包含了具有矢量信息的信息元素。网络数据挖掘系统包括关联度分析模块440,用于对每一个信息数据族的空间矢量分布进行统计,进行关联度分析获得网络数据的关联性。通过关联度分析,确定与事件关联度高的信息族,以及信息族中主要的信息元素,从而对事件作出正确的研判。计算每两个信息数据族之间的关联度,确定哪些信息族与事件的关联度高。两个信息族之间的距离越近,其关联度越高。统计信息数据族中行为、关系、位置分量的分布情况,确定哪些行为、关系、位置与事件关联度较高。在一实施例中,所述关联度分析模块440还用于计算信息数据族中代表行为关系位置分量的多个关键词与事件中行为关系位置分量多个关键词的重合度,并进行归一化处理。将归一化后重合度较大的关键词作为与时间关联度较高的行为关系位置元素。通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例非穷尽性列表包括以下:具有一个或多个布线的电连接部电子装置,便携式计算机盘盒磁装置,随机存取存储器RAM,只读存储器ROM,可擦除可编辑只读存储器EPROM或闪速存储器,光纤装置,以及便携式光盘只读存储器CDROM。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列PGA,现场可编程门阵列FPGA等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种基于多维矢量数据的网络数据挖掘方法,其特征在于,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。2.如权利要求1所述的数据挖掘方法,其特征在于,所述多维矢量数据源表示为DATAa,r,p,a为行为信息分量,r为关系信息分量,p为位置信息分量。3.如权利要求1所述的数据挖掘方法,其特征在于,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。4.如权利要求1所述的数据挖掘方法,其特征在于,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和或位置信息。5.如权利要求4所述的数据挖掘方法,其特征在于,还包括:计算信息数据族中代表行为、关系和或位置分量的多个关键词与事件中代表行为、关系和或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和或位置信息。6.一种基于多维矢量数据的网络数据挖掘系统,其特征在于,包括:矢量化模块,用于将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,搜索模块,用于根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,聚类分析模块,用于对汇总的搜索结果进行聚类分析,产生信息数据族集合,关联度分析模块,用于对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。7.如权利要求6所述的数据挖掘系统,其特征在于,所述多维矢量数据源表示为DATAa,r,p,a为行为信息分量,r为关系信息分量,p为位置信息分量。8.如权利要求6所述的数据挖掘系统,其特征在于,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。9.如权利要求6所述的数据挖掘系统,其特征在于,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和或位置信息。10.如权利要求9所述的数据挖掘系统,其特征在于,所述关联度分析模块还用于计算信息数据族中代表行为、关系和或位置分量的多个关键词与事件中代表行为、关系和或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和或位置信息。

百度查询: 中科金联(北京)科技有限公司 一种基于多维矢量数据的网络数据挖掘方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。