买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】拓扑数据抽样方法和装置、视化方法和系统_腾讯科技(深圳)有限公司_201710398072.X 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2017-05-31

公开(公告)日:2020-07-28

公开(公告)号:CN108989064B

主分类号:H04L12/24(20060101)

分类号:H04L12/24(20060101);H04L12/26(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.28#授权;2019.01.04#实质审查的生效;2018.12.11#公开

摘要:本发明提供一种拓扑数据抽样方法和装置、视化方法和系统,该方法包括:获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据最大节点出度与总出度的比值确定拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;当拓扑数据网络结构为广播式拓扑网络时,根据拓扑数据网络结构中各节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样;当拓扑数据网络结构为链条式拓扑网络时,根据拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据第二样本节点所在的支路进行抽样。该抽样方法有效地去掉了原始网络中的噪声数据并保留了原始网络的整体骨架,确保了在模拟完全网络的拓扑结构的基础上的可视化效果。

主权项:1.一种拓扑数据抽样方法,包括:获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,通过对所述第一样本节点及各分支进行遍历抽样,根据各分支中包含所述第一样本节点的分支形成抽样后的拓扑数据网络结构;当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪抽样,形成抽样后的拓扑数据网络结构。

全文数据:拓扑数据抽样方法和装置、视化方法和系统技术领域[0001]本发明涉及数据处理技术领域,特别是涉及一种拓扑数据抽样方法和装置及拓扑数据视化方法和系统。背景技术[0002]近年来,社交软件发展迅速,成为用户必不可少的交流工具。目前常用的一种社交软件便可拥有超过八亿的月活跃用户,这些用户的行为数据形成了超大规模且复杂的拓扑数据网络。受限于技术和成本,对于这种超大规模且复杂的拓扑数据网络很难直接可视化出来,从而难以获取网络的完全信息,如何对拓扑数据网络进行合理抽样,获得可模拟完全网络的拓扑结构的抽样网络以实现对完全网络部分特性的准确推断具有重要的价值。[0003]目前,针对超大规模且复杂的拓扑数据网络的抽样算法主要有四种:完全随机抽样算法、随机游走抽样算法、滚雪球抽样算法和两阶段抽样算法。这四种方法都是采用在网络中随机抽取节点和边的方法来实现数据抽样,形成保持不同拓扑特征量的抽样网络,进而应用于不同的研究场景。而为了保持完全网络的节点出度、聚类系数和平均路径长度等拓扑指标,采用随机抽取部分节点和部分边的策略,必然会导致重要节点或边的缺失、且抽样后形成的拓扑数据网络不能形成连通的网络,当应用于可视化场景时,展示出来的可能是多个连通子图,导致不能对完全网络形成整体结构的把握,失去拓扑网络数据抽样与可视化的意义。发明内容[0004]基于此,有必要提供一种可模拟完全网络的拓扑结构与便于可视化的拓扑数据抽样方法和装置、及拓扑数据视化方法和系统。[0005]—种拓扑数据抽样方法,包括:[0006]获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;[0007]当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;[0008]当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样。[0009]—种拓扑数据抽样装置,包括:[0010]网络结构确定模块,用于获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;[0011]第一抽样模块,用于当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;[0012]第二抽样模块,用于当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样。[0013]上述的拓扑数据抽样方法和装置,通过将拓扑数据网络结构区分为广播式拓扑网络和链条式拓扑网络,进行抽样处理之前识别拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络,并根据广播式拓扑网络和链条式拓扑网络的不同特性分别以不同方式确定样本节点,广播式拓扑网络根据节点的出度确定样本节点,确保在保留关键节点和关键路径的基础上削减分支,链条式拓扑网络结合考虑节点的出度和层级确定样本节点,在保留关键节点和关键路径的基础上削减分支长度,从而可以避免抽样过程中漏失关键节点和关键路径,通过根据广播式拓扑网络和链条式拓扑网络的不同特性针对性地削减非重要分支的数量、或削减非重要分支的数量与长度,有效地去掉了原始网络中的噪声数据并保留了原始网络的整体骨架,达到减小拓扑数据网络结构的目的,确保了在模拟完全网络的拓扑结构的基础上的可视化效果。[0014]—种拓扑数据视化方法,包括:[0015]获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;[0016]当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;[0017]当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样;[0018]根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显示。[0019]—种拓扑数据视化系统,包括拓扑数据抽样装置和重构装置,[0020]拓扑数据抽样装置包括:网络结构确定模块,用于获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;第一抽样模块,用于当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;第二抽样模块,用于当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样;[0021]重构装置,用于根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显示。[0022]上述的拓扑数据视化方法和系统,根据上述拓扑数据抽样方法和装置进行抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显示,通过重构展示传播网络的整体骨架,抽样后的拓扑数据网络结构中保留的节点和边的数量大大减少,拓扑结构更加清晰可见,显示后关键路径、关键节点可直观凸显出来。附图说明[0023]图1为一个实施例提供的拓扑数据抽样方法和装置的应用环境示意图;[0024]图2为一个实施例中服务器的内部结构示意图;[0025]图3为一个实施例的拓扑数据抽样方法的流程图;[0026]图4为另一个实施例中拓扑数据抽样方法的流程图;[0027]图5为另一个实施例中拓扑数据抽样方法的流程图;[0028]图6为一个实施例中拓扑数据抽样方法的流程图;[0029]图7为另一个实施例中拓扑数据抽样方法的流程图;[0030]图8为一个实施例中拓扑数据视化方法的流程图;[0031]图9为针对广播式拓扑网络采用目前的抽样算法随机抽取部分边和部分节点的方式进行抽样、以及采用本申请实施例所提供拓扑数据抽样方法进行抽样后所形成拓扑数据网络结构可视化后的对比图;[0032]图10为针对链条式拓扑网络采用目前的抽样算法随机抽取部分边和部分节点的方式进行抽样、以及采用本申请实施例所提供拓扑数据抽样方法进行抽样后所形成拓扑数据网络结构可视化后的对比图;[0033]图11为一个实施例的拓扑数据抽样装置的结构框图;[0034]图12为另一个实施例的拓扑数据抽样装置的结构框图;[0035]图13为另一个实施例的拓扑数据抽样装置的结构框图;[0036]图14为一个实施例的拓扑数据视化系统的结构框图。具体实施方式[0037]为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。[0038]本发明提供一种拓扑数据抽样方法,用于对超大规模且复杂的拓扑数据网络结构进行抽样,以能够形成可模拟完全网络的拓扑结构和便于可视化的抽样网络,通过模拟完全网络的拓扑结构并可视化展示,保留了抽样前拓扑数据网络结构的整体骨架,以能够清晰地展示网络的整体结构,使得用户能够简单直接地了解到网络中的关键节点和关键路径,实现对完全网络部分特性的准确推断。[0039]图1为一个实施例提供的拓扑数据抽样方法和装置的应用环境示意图。如图1所示,该应用环境包括终端100和服务器200,终端100通过网络与服务器200进行通信,其中终端100用于接收用户输入的操作指令,并通过网络发送给服务器200,服务器200根据操作指令完成相应的操作并存储关联的行为数据,以行为数据为待抽样数据,根据行为数据及其关联关系形成拓扑数据网络结构并进行抽样。其中,终端100可以为智能手机、平板电脑、个人数字助理PDA及个人计算机。服务器200可以为独立的物理服务器或者物理服务器集群。[0040]以行为数据为通过社交软件进行信息推送的数据为例,终端100用于接收用户输入的对信息进行转发的转发操作指令并发送给服务器200,由服务器200根据该转发操作指令完成转发操作并存储关联的转发行为数据,其中,转发行为数据至少包括与本次转发操作指令对应的转发用户标识、信息源标识。信息源标识是指本次转发操作指令所转发的信息的直接提供方的标识,转发用户标识是指本次转发操作指令发出方的标识,信息推送过程中,两次转发操作指令中其中一次转发操作指令所对应的转发用户标识可能成为另一次转发操作指令所对应的信息源标识,以每一次转发操作指令所对应的信息源标识为父节点,转发用户标识为子节点,连接对应的父节点和子节点的线条为边形成表示该信息推送路径的拓扑数据网络结构。可以理解的,信息的原始提供方不作为任意转发操作中的子节点,从而为拓扑数据网络结构的根节点;当一次转发操作指令所对应的转发用户标识不作为任意转发操作指令的信息源标识,则该转发操作指令所对应的转发用户标识为叶子节点。[0041]图2为一个实施例中的服务器的内部结构示意图。如图2所示,服务器包括包括通过系统总线链接的处理器、存储介质、内存和网络接口。其中,该服务器200的存储介质存储有操作系统、数据库和一种拓扑数据抽样装置的计算机程序。数据库用于存储数据如用户通过社交软件进行操作的行为数据。该拓扑数据抽样装置的计算机程序被执行时,用于实现一种拓扑数据抽样方法。该服务器200的处理器用于提供计算和控制能力,支撑整个接入服务器200的运行。该服务器200的内存为存储介质中的拓扑数据抽样装置的运行提供环境。该服务器200的网络接口用于与外部的终端100通过网络连接通信,比如接收终端100发送的操作指令等。本领域技术人员可以理解,图2中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。[0042]图3为一个实施例的拓扑数据抽样方法的流程图,该方法运行于图1所示的服务器,包括以下步骤:[0043]步骤101,获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据最大节点出度与总出度的比值确定拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络。[0044]拓扑数据网络结构是指满足拓扑关系的数据所形成的网络结构,由节点和用于连接节点的边组成,其中节点表示数据元素本身,边表示数据元素之间的关系。节点的出度是指起始于该节点的边的数量。节点的总出度是指拓扑数据网络结构中各节点的出度的和。最大节点出度则是指起始于同一节点的边的数量的最大值,通常,该最大节点出度为根节点的出度。满足拓扑关系的数据可以是任意能够按照分支关系组织起来的数据,如数据的产生具有连续性关系的数据。广播式拓扑网络是指主要由数量相对较多的分支长度相对较短的分支组成以某节点为中心的辐射状网络。链条式拓扑网络是指主要由数量相对较少的分支长度相对较长的分支组成的没有明显的节点中心的链条状网络。根据最大节点出度与总出度的比值来判断拓扑数据网络结构是否具备明显的中心,当最大节点出度与总出度的比值较高时,表示网络中数据的出度主要集中于该某一个节点,平均的分支长度较小;当最大节点出度与总出度的比值较小时,表示网络没有明显的中心,平均的分支长度较长,因此可根据最大节点出度与总出度的比值可确定拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络。在一个实施例中,满足拓扑关系的数据是指对信息进行推送的信息推送数据。拓扑数据网络结构可以是指针对某一信息进行推送的信息推送数据、针对某一类别信息进行推送的信息推送数据、或针对选定的若干信息进行推送的信息推送数据所形成的拓扑数据网络结构。[0045]步骤103,当拓扑数据网络结构为广播式拓扑网络时,根据拓扑数据网络结构中各节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样。[0046]根据节点的出度可以识别出广播式拓扑网络中相对更为中心的节点,从而确定为第一样本节点。支路是指以根节点为起始点、以叶子节点为终点所形成的任一连通路径。第一样本节点所在的支路则是指分别以根节点为起始点到各叶子节点所形成的连通路径中包含第一样本节点的路径。由于广播式拓扑网络中节点的出度相对更为集中,通过根据节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样,可以在保留关键节点和关键路径的基础上削减分支,针对广播式拓扑网络通过减少非重要分支的数量的方式进行抽样,避免抽样过程中漏失关键节点和关键路径。[0047]步骤105,当拓扑数据网络结构为链条式拓扑网络时,根据拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据第二样本节点所在的支路进行抽样。[0048]节点的层级是指从根节点到对应节点之间的距离,可由根节点到对应节点之间所形成的路径中边的数量表示,由于从根节点到同一节点之间的路径可能不是唯一的,从而针对同一节点所在的不同路径,其可能具有不同的层级。由于链条式拓扑网络中存在大量分支长度大的分支、且节点的出度相对分散,因此把节点的出度和层级作为共同确定节点重要性的考虑因素,结合节点的出度与层级可优先识别出拓扑数据网络结构中出度大且层级小的节点作为第二样本节点,根据第二样本节点所在的支路进行抽样,可以在保留关键节点和关键路径的基础上削减分支长度,针对链条式拓扑网络通过减少非重要的节点与分支长度长的非重要分支的数量的方式进行抽样,避免抽样过程中漏失关键节点和关键路径。[0049]以上拓扑数据抽样方法,通过识别拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络,并根据广播式拓扑网络和链条式拓扑网络的不同特性分别以不同方式确定样本节点,其中广播式拓扑网络根据节点的出度确定第一样本节点,确保在保留关键节点和关键路径的基础上削减分支,链条式拓扑网络结合考虑节点的出度和层级确定第二样本节点,在保留关键节点和关键路径的基础上削减分支长度,从而可以避免抽样过程中漏失关键节点和关键路径,通过相应削减非重要分支的数量或削减非重要分支的数量与长度,有效地去掉了原始网络中的噪声数据并保留了原始网络的整体骨架,达到减小拓扑数据网络结构的目的,确保拓扑数据网络结构抽样后的可视化展示效果。[0050]在另一个实施例中,请参阅图4,步骤103,根据拓扑数据网络结构中各节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样的步骤包括:[0051]步骤1031,获取拓扑数据网络结构中各节点的出度,选取出度数大于预设值的节点或者出度相对较大的大于预设比例数量的节点作为第一样本节点。[0052]步骤1032,对第一样本节点及各分支进行遍历,当分支中包含任意第一样本节点时将对应分支作为第一样本分支。[0053]步骤1033,根据第一样本分支形成抽样后的拓扑数据网络结构。[0054]根据节点的出度确定第一样本节点的方式包括将出度数大于预设值的节点确定为第一样本节点或者选取预设比例的出度数相对较大的节点确定为第一样本节点。其中出度数大于预设值的节点确定为第一样本节点的方式中,预设值可根据不同拓扑数据网络结构中各节点的出度的平均大小而进行调整。选取预设比例的出度数相对较大的节点确定为第一样本节点的方式中,预设比例的值则可以参考网络结构中节点的总数量而进行调整。上述预设值的调整或预设比例的调整可以是用户手动设置不同参数实现,或者通过设置调整规则进行自动调整。如设置第一样本节点的参考数量,当根据节点的出度确定第一样本节点后数量小于所述参考数量时,则自动减小所述预设值或者自动增加所述预设比例的数值来调节第一样本节点的数量,直至符合所述参考数量的范围。[0055]通过筛选确定出出度相对更大的节点作为第一样本节点,并以分支是否包含该第一样本节点筛选确定出包含该拓扑数据网络结构中重要节点的关键分支,从而可以在保留关键节点和关键路径的基础上削减分支数量,以有效去掉原始网络中的噪声数据的基础上,可有效避免抽样过程中漏失关键节点和关键路径。[0056]在另一个实施例中,步骤1032,对第一样本节点及各分支进行遍历,当分支中包含任意第一样本节点时将对应分支作为第一样本分支之前,还包括:[0057]根据第一样本节点确定第一样本节点所在分支,对第一样本节点所在分支按照分支长度进行排序。[0058]拓扑数据网络结构中分支结构通常非常复杂、数量很大,且可能存在环状分支,对第一样本节点及各分支进行遍历之前首先找出包含第一样本节点的分支并按照分支长度进行排序,针对包含第一样本节点的环状分支,则可将该第一样本节点为叶子节点将该环状分支分割形成两个分别包含该第一样本节点的分支,如此,在对第一样本节点及各分支进行遍历时,可以该按照分支长度进行排序的第一样本节点所在分支作为遍历的范围,减小计算量。针对广播式拓扑网络,抽样的主要目的是减少非重要分支的数量,保留包含有关键节点的分支长度更长的关键分支,通过确定第一样本节点和第一样本分支,先对第一样本分支进行排序后再进行遍历,可以大大减小抽样的计算量和确保抽样结果的可视化。[0059]在另一个实施例中,请参阅图5,步骤105,根据拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据第二样本节点所在的支路进行抽样的步骤包括:[0060]步骤1051,获取拓扑数据网络结构中各节点的出度以及层级。[0061]步骤1053,分别以任一节点作为目标节点,根据目标节点的出度、目标节点所在层级中节点的最大出度、及拓扑数据网络结构中各节点的最大出度的计算目标节点的抽样概率。[0062]步骤1054,根据抽样概率确定目标节点是否为第二样本节点。[0063]步骤1055,根据第二样本节点对包括第二样本节点的分支进行裁剪,根据裁剪后的分支形成抽样后的拓扑数据网络结构。[0064]目标节点所在层级中节点的最大出度是指与目标节点的层级相同的节点中出度最大的节点的出度。针对链条式拓扑网络,抽样的主要目的是保留包含有关键节点的的关键分支的基础上减小分支长度,由于链条式拓扑网络中节点的出度相对较为分散,通过根据目标节点的出度与目标节点所在层级中节点的最大出度、及拓扑数据网络结构中各节点的最大出度的相对关系来确定目标节点的抽样概率,可以将同一层级中节点出度相对更大且在拓扑数据网络结构中出度相对更大的节点筛选出来作为第二样本节点。[0065]根据第二样本节点对包含第二样本节点的分支进行裁剪的目的是在保留第二样本节点的基础上,减小分支的长度,其中裁剪可以是根据第二样本节点所在分支的长度对相应分支中的非样本节点按照预设的策略进行删减、或选取第二样本节点所在分支中分支长度相对较小的分支进行保留。拓扑数据网络结构中分支的结构通常较为复杂、分支的数量很大,且可能存在环状分支,当第二样本节点所在分支为环状分支时,可将第二样本节点作为叶子节点将环状分支分割形成两个分别包含该第二样本节点的分支,裁剪时选取分支长度相对较小的分支进行保留,通过第二样本节点的确定以及分支的裁剪,可以保留拓扑数据网络结构中的关键节点以及减小关键分支的分支长度,确保抽样结果的可视化。[0066]进一步的,步骤1053,分别以任一节点作为目标节点,根据目标节点的出度、目标节点所在层级中节点的最大出度、及拓扑数据网络结构中各节点的最大出度的计算目标节点的抽样概率步骤具体包括:[0067]分别以任一节点作为目标节点,根据目标节点的出度与目标节点所在层级中节点的最大出度的比值、以及目标节点的出度与拓扑数据网络结构中各节点的最大出度的比值计算目标节点的抽样概率。[0068]在一具体实施例中,抽样概率的具体计算方式为:[0069][0070]其中,Pt是指目标节点(拓扑数据网络结构中第i层第j个节点)的抽样概率、Dlj是指第i层第j个节点的出度、maxDi是指第i层中出度最大的节点的出度,Hi是指第i层,max⑼是指拓扑数据网络结构中各节点的最大出度,H是指拓扑数据网络结构中的最大层级。通过计算目标节点的出度与目标节点所在层级中节点的最大出度的比值、与目标节点的出度与拓扑数据网络结构中各节点的最大出度的比值的和作为目标节点的抽样概率,确保当某层级的节点中出度均较小时、或拓扑数据网络结构中节点出度整体较为分散时影响抽样概率的准确性,避免漏失关键节点。[0071]步骤1055,根据第二样本节点对包括第二样本节点的分支进行裁剪,根据裁剪后的分支形成抽样后的拓扑数据网络结构的步骤具体包括:[0072]根据第二样本节点确定包括第二样本节点的第二样本分支,选取包含相同第二样本节点的第二样本分支中长度最小的第二样本分支,根据长度最小的第二样本分支形成抽样后的拓扑数据网络结构。[0073]针对包含相同第二样本节点的多个分支中,选取长度最小的第二样本分支进行保留,对应的删除包含相同第二样本节点的多个分支中分支长度相对较大的第二样本分支,从而裁剪后形成包含有第二样本节点且分支长度最小的拓扑数据网络结构,可视化后可有效凸显出网络中的桥节点。[0074]在另一个实施例中,如图6所示,步骤1055,根据第二样本节点对包括第二样本节点的分支进行裁剪,根据裁剪后的分支形成抽样后的拓扑数据网络结构的步骤之后,还包括:[0075]步骤1056,将同一分支中出度小于预设出度值的相邻多个节点进行合并。[0076]根据第二样本节点对包括第二样本节点的分支进行裁剪抽样后形成的拓扑数据网络中,仍然可能存在分支长度过大的分支,当对其可视化展示时所有分支均需完全展示在同一页面内,从而会影响整体可视化效果。通过将同一分支中出度小于预设出度值的相邻多个节点进行合并,可以减小分支长度。其中,合并的方式包括将相邻多个节点合并为一个节点,并在一个节点中显示多个节点所包含的数据元素信息;或者将相邻多个节点中保留位于两端的两个节点并直接删除位于两端的两个节点之间的其它节点;或者将相邻多个节点中保留层级最小的节点并删除其它节点。预设出度值可参考拓扑数据网络中各节点的最大出度和平均出度进行调整。[0077]在另一个实施例中,如图7所示,步骤1055,根据第二样本节点对包括第二样本节点的分支进行裁剪,根据裁剪后的分支形成抽样后的拓扑数据网络结构的步骤之后,还包括:[0078]步骤1057,获取抽样后的拓扑数据网络结构中出度大于预设值的节点作为对象节点、或者获取抽样后的拓扑数据网络结构中预设比例的出度相对较大的节点作为对象节占.[0079]步骤1058,对对象节点进行补边。[0080]其中,对象节点是在抽样后的拓扑数据网络结构的基础上根据各节点的出度进行确定。本实施例中步骤1057中预设值或预设比例的数值的确定方式与本申请前述实施例所描述的方案中的思路可以相同。补边是指依据抽样前的拓扑数据网络结构,判断将以对象节点作为父节点的所有子节点中是否有缺失,如果有则将对应的子节点增加到抽样后的拓扑数据网络结构中来,即补充以对象节点作为父节点的子节点,确保以对象节点作为父节点的所有子节点均能够保留在抽样后的拓扑数据网络结构中,通过补边还原对象节点,可以确保关键节点作为父节点的情况得到真实展现。[0081]其中,在另一个实施例中,在步骤1056,将同一分支中出度小于预设出度值的相邻多个节点进行合并之前,包括步骤1057、步骤1058,即同时包括对对象节点进行补边的步骤与对相邻多个节点进行合并的步骤,首先通过节点合并减小分支长度以及去掉非重要节点,再通过补边防止关键节点的邻居节点没有得到保留,从而有效减少抽样后的拓扑数据网络结构中的节点的总数量且更好地凸显出关键节点,确保抽样后的拓扑数据网络结构能够模拟完全网络的拓扑结果且便于可视化。[0082]为了能够更好的说明本申请实施例所提供的拓扑数据抽样方法的具体实现过程,以待抽样数据为通过社交软件转发文章的行为数据为例,其中根节点通常是指文章的原始发布方的标识,如通过微信这一社交软件的公众号发布再通过朋友圈、群聊等方式转发的文章,根节点为原始发布文章的公众号标识,层级为1的节点是指从该原始发布文章的公众号获取到该文章地址信息并在此基础上进行转发的用户的标识,其可以是个人用户或者其它公众号等,层级为2的节点是指从该层级为1的节点所对应的用户获取到该文章的地址信息并在此基础上进行转发的用户的标识,同理其也可以是个人用户或者其它公众号等,以此类推,通过获取该文章被转发的所有行为数据,通过分别确定每一次转发操作中的信息提供方和转发方而分别确定父节点和子节点,形成拓扑数据网络结构。[0083]针对传播方式以公众号为主向外辐射的文章,大部分是用户以公众号所载的文章地址信息为基础进行转发,由于公众号的关注人数较多,所以容易带来较大的转发量,从而整体形成以该公众号为中心向外辐射的拓扑数据网络结构,即广播式拓扑网络。针对传播方式主要以朋友圈、群聊等个人转发行为为主进行辐射的文章,大部分是用户在其它用户转发的基础上再次进行转发而进行传播,从而形成较长的传播路径,整体形成无明显中心、分支长度非常大的拓扑数据网络结构,即链条式拓扑网络。对于任意转播方式根据文章的实际转发情况形成的拓扑网络中,都容易存在大量无法带来二次转发或二次转发较小的用户,从而拓扑数据网络结构中存在大量小出度的节点,然而在对行为数据进行研究分析过程中,需要关注的是能够带来更大转发量的用户,即出度更大的节点。[0084]通过将拓扑数据网络结构区分为广播式拓扑网络和链条式拓扑网络,对于以公众号为中心向外辐射进行传播的文章所形成广播式拓扑网络,通过根据各节点的出度筛选出网络中出度相对更大的节点作为第一样本节点,再根据第一样本节点确定抽样后需保留的分支,可避免采用目前的抽样算法随机抽取部分边和部分节点的方式导致网络中出度大的节点或者边的缺失。对于以个人朋友圈、群聊等个人转发行为为主进行传播所形成的链条式拓扑网络,通过考虑出度相对较大的节点所在的层次,同时参考各节点的出度与层级计算抽样概率来确定网络中出度更大的第二样本节点,实现了分层搜索、抽样,以避免采用目前的抽样算法随机抽取部分边和部分节点的策略中导致网络中出度大的节点或者边的缺失,通过抽样大大减少了网络中无关注价值的节点,去掉原始拓扑数据网络结构中的噪声数据,保留了传播网络的整体骨架,使传播的拓扑结构更加清晰同时也便于将关键路径、关键节点凸显出来,确保在能够模拟完全网络的拓扑结构的基础上的可视化效果。[0085]如图8所示,为本申请另一实施例所提供的拓扑数据视化方法,其与上述实施例所提供的拓扑数据抽样方法的应用环境相同,包括如下步骤:[0086]根据上述任一实施例所提供的拓扑数据抽样方法对拓扑数据网络结构进行抽样,如根据上述第一实施例所提供的拓扑数据抽样方法对拓扑数据网络结构进行抽样包括:步骤101,获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据最大节点出度与总出度的比值确定拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;步骤103,当拓扑数据网络结构为广播式拓扑网络时,根据拓扑数据网络结构中各节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样;步骤105,当拓扑数据网络结构为链条式拓扑网络时,根据拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据第二样本节点所在的支路进行抽样。[0087]步骤109,根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显不。[0088]通过重构展示传播网络的整体骨架,抽样后的拓扑数据网络结构中保留的节点和边的数量大大减少,关键节点的传播路径和数据网络整体拓扑结构更加清晰可见,显示后关键路径、关键节点可直观凸显出来。[0089]如图9所示,为以转发量为8k的广播式拓扑网络分别采用目前的抽样算法随机抽取部分边和部分节点的方式进行抽样、以及采用本申请实施例所提供拓扑数据抽样方法进行抽样后所形成拓扑数据网络结构可视化后的对比图,采用目前的抽样算法随机进行抽样后的视化图中,根节点81的出度占比远远超出其它节点,且围绕根节点81的噪声节点82数量过多,随机抽样导致大量出度较大的众多桥节点缺失,从而抽样后重构的数据网络不能直观体现全部桥接点,抽样后保留的出度相对较大的桥节点83在视化图中脉络不清晰,而采用本申请实施例所提供拓扑数据抽样方法进行抽样后的视化图中,由于首先根据节点出度确定第一样本节点85以保留网络中的全部关键节点的基础上再进行抽样,从而抽样后重构的数据网络中能够确保所有关键节点被保留,出度较大的桥节点86在抽样后重构的网络结构中传播路径脉络清晰,并能够保留好原数据网络的整体骨架。如10所示,为以转发量为I.Iw的链条式拓扑网络分别采用目前的抽样算法随机抽取部分边和部分节点的方式进行抽样、以及采用本申请实施例所提供拓扑数据抽样方法进行抽样后所形成拓扑数据网络结构可视化后的对比图,采用目前的抽样算法随机进行抽样后的视化图中,随机抽样导致大量出度较大的众多桥节点缺失,且抽样后仍然存在大量分支长度过长路径,抽样后保留的出度相对较大的桥节点90在视化图中脉络不清晰,而采用本申请实施例所提供拓扑数据抽样方法进行抽样后的视化图中,由于首先根据节点出度和层级确定第二样本节点以保留网络中的全部关键节点的基础上再进行抽样,从而抽样后重构的数据网络中能够确保所有关键节点被保留,出度较大的桥节点95在抽样后重构的网络结构中传播路径脉络清晰,并能够保留好原数据网络的整体骨架。从以上对比图可以看出,采用本申请实施例所提供拓扑数据抽样方法进行抽样后所形成拓扑数据网络结构有效地去掉了原始网络中的噪声数据并保留了原始网络的整体骨架,从而拓扑结构更加清晰,且对出度大的关键节点以及关键路径可以较好的凸显,确保了在模拟完全网络的拓扑结构的基础上的可视化效果。通常,抽样后形成的拓扑数据网络结构中节点的规模可以降低为抽样前的原始网络的10%〜20%。[0090]在一个实施例中,请参阅图11,提供一种拓扑数据抽样装置,其包括网络结构确定模11、第一抽样模块13和第二抽样模块15。网络结构确定模块11用于获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据最大节点出度与总出度的比值确定拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络。第一抽样模块13用于当拓扑数据网络结构为广播式拓扑网络时,根据拓扑数据网络结构中各节点的出度确定第一样本节点,根据第一样本节点所在的支路进行抽样。第二抽样模块15用于当拓扑数据网络结构为链条式拓扑网络时,根据拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据第二样本节点所在的支路进行抽样。[0091]在另一个实施例中,如图12所示,第一抽样模块13包括样本节点单元131、遍历单元132及抽样单元133。样本节点单元131用于获取拓扑数据网络结构中各节点的出度,选取出度数大于预设值的节点或者出度相对较大的大于预设比例数量的节点作为第一样本节点。遍历单元132用于对第一样本节点及各分支进行遍历,当分支中包含任意第一样本节点时将对应分支作为样本分支。抽样单元133用于根据样本分支形成抽样后的拓扑数据网络结构。[0092]进一步的,第一抽样模块13还包括与遍历单元连接的排序模块,用于根据第一样本节点确定样本节点所在分支,对第一样本节点所在分支按照分支长度进行排序。[0093]在另一个实施例中,请参阅图13,第二抽样模块15包括获取单元151、概率计算单元153、节点确定单元154以及裁剪单元155。获取单元151用于获取拓扑数据网络结构中各节点的出度以及层级。概率计算单元153用于分别以任一节点作为目标节点,根据目标节点的出度、目标节点所在层级中节点的最大出度、及拓扑数据网络结构中各节点的最大出度的计算目标节点的抽样概率。节点确定单元154用于根据抽样概率确定目标节点是否为第二样本节点。裁剪单元155用于根据第二样本节点对包括样本节点的分支进行裁剪,根据裁剪后的分支形成抽样后的拓扑数据网络结构。[0094]进一步的,概率计算单元153具体用于分别以任一节点作为目标节点,根据目标节点的出度与目标节点所在层级中节点的最大出度的比值、以及目标节点的出度与拓扑数据网络结构中各节点的最大出度的比值计算目标节点的抽样概率。裁剪单元155具体用于根据第二样本节点确定包括第二样本节点的第二样本分支,选取包含相同第二样本节点的第二样本分支中长度最小的第二样本分支,根据长度最小的第二样本分支形成抽样后的拓扑数据网络结构。[0095]在一个实施例中,拓扑数据抽样装置还包括节点合并单元156,用于将同一分支中出度小于预设出度值的相邻多个节点进行合并。[0096]在另一个实施例中,拓扑数据抽样装置还包括对象节点单元157和补边单元158。对象节点单元157用于获取抽样后的拓扑数据网络结构中出度大于预设值节点作为对象节点、或者获取抽样后的拓扑数据网络结构中预设比例的出度相对较大的节点作为对象节点。补边单元158用于对对象节点进行补边。[0097]上述拓扑数据抽样装置,通过将拓扑数据网络结构区分为广播式拓扑网络和链条式拓扑网络,进行抽样处理之前识别拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络,并根据广播式拓扑网络和链条式拓扑网络的不同特性分别以不同方式确定样本节点,广播式拓扑网络根据节点的出度确定第一样本节点,确保在保留关键节点和关键路径的基础上削减分支,链条式拓扑网络结合考虑节点的出度和层级确定第二样本节点,在保留关键节点和关键路径的基础上削减分支长度,从而可以避免抽样过程中漏失关键节点和关键路径,通过根据广播式拓扑网络和链条式拓扑网络的不同特性针对性地削减非重要分支的数量、或削减非重要分支的数量与长度,有效地去掉了原始网络中的噪声数据并保留了原始网络的整体骨架,达到减小拓扑数据网络结构的目的,确保了在模拟完全网络的拓扑结构的基础上的可视化效果。[0098]请参阅图14,在另一个实施例中,还提供拓扑数据视化系统,包括上述任一实施例提供的拓扑数据抽样装置、重构装置。拓扑数据抽样装置包括网络结构确定模11、第一抽样模块13和第二抽样模块15。重构装置19用于根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显示。[0099]通过重构展示传播网络的整体骨架,抽样后的拓扑数据网络结构中保留的节点和边的数量大大减少,关键节点的传播路径和数据网络整体拓扑结构更加清晰可见,显示后关键路径、关键节点可直观凸显出来。[0100]基于如上所述的示例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种拓扑数据抽样方法或者上述各实施例中的任意一种拓扑数据视化方法。[0101]基于如上所述的示例,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种拓扑数据抽样方法或者上述各实施例中的任意一种拓扑数据视化方法。[0102]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,R0M或随机存储记忆体RandomAccessMemory,RAM等。[0103]以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。[0104]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

权利要求:1.一种拓扑数据抽样方法,包括:获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样。2.如权利要求1所述的拓扑数据抽样方法,其特征在于:所述根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样的步骤包括:获取拓扑数据网络结构中各节点的出度,选取出度数大于预设值的节点或者出度相对较大的大于预设比例数量的节点作为第一样本节点;对所述第一样本节点及各分支进行遍历,当分支中包含任意所述第一样本节点时将对应分支作为第一样本分支;根据所述第一样本分支形成抽样后的拓扑数据网络结构。3.如权利要求1所述的拓扑数据抽样方法,其特征在于:根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样的步骤包括:获取拓扑数据网络结构中各节点的出度以及层级;分别以任一节点作为目标节点,根据所述目标节点的出度、所述目标节点所在层级中节点的最大出度、及所述拓扑数据网络结构中各节点的最大出度计算所述目标节点的抽样概率;根据所述抽样概率确定所述目标节点是否为第二样本节点;根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪,根据裁剪后的所述分支形成抽样后的拓扑数据网络结构。4.如权利要求3所述的拓扑数据抽样方法,其特征在于:所述分别以任一节点作为目标节点,根据目标节点的出度、所述目标节点所在层级中节点的最大出度、及所述拓扑数据网络结构中各节点的最大出度计算所述目标节点的抽样概率的步骤包括:分别以任一节点作为目标节点,根据目标节点的出度与所述目标节点所在层级中节点的最大出度的比值、以及所述目标节点的出度与所述拓扑数据网络结构中各节点的最大出度的比值计算所述目标节点的抽样概率;所述根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪,根据裁剪后的所述分支形成抽样后的拓扑数据网络结构的步骤包括:根据所述第二样本节点确定包括所述第二样本节点的第二样本分支,选取包含相同第二样本节点的第二样本分支中长度最小的第二样本分支,根据所述长度最小的第二样本分支形成抽样后的拓扑数据网络结构。5.如权利要求3或4所述的拓扑数据抽样方法,其特征在于:所述根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪,根据裁剪后的所述分支形成抽样后的拓扑数据网络结构的步骤之后,还包括:将同一分支中出度小于预设出度值的相邻多个节点进行合并。6.如权利要求3或4所述的拓扑数据抽样方法,其特征在于:所述根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪,根据裁剪后的所述分支形成抽样后的拓扑数据网络结构的步骤之后,还包括:获取所述抽样后的拓扑数据网络结构中出度大于预设值的节点作为对象节点、或者获取所述抽样后的拓扑数据网络结构中预设比例的出度相对较大的节点作为对象节点;对所述对象节点进行补边。7.—种拓扑数据抽样装置,包括:网络结构确定模块,用于获取拓扑数据网络结构中节点的总出度以及最大节点出度,根据所述最大节点出度与所述总出度的比值确定所述拓扑数据网络结构为广播式拓扑网络或链条式拓扑网络;第一抽样模块,用于当所述拓扑数据网络结构为广播式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度确定第一样本节点,根据所述第一样本节点所在的支路进行抽样;第二抽样模块,用于当所述拓扑数据网络结构为链条式拓扑网络时,根据所述拓扑数据网络结构中各节点的出度以及层级确定第二样本节点,根据所述第二样本节点所在的支路进行抽样。8.如权利要求7所述的拓扑数据抽样装置,其特征在于:所述第一抽样模块包括:样本节点单元,用于获取拓扑数据网络结构中各节点的出度,选取出度数大于预设值的节点或者出度相对较大的大于预设比例数量的节点作为第一样本节点;遍历单元,用于对所述第一样本节点及各分支进行遍历,当分支中包含任意所述第一样本节点时将对应分支作为第一样本分支;抽样单元,用于根据所述第一样本分支形成抽样后的拓扑数据网络结构。9.如权利要求7所述的拓扑数据抽样装置,其特征在于:所述第二抽样模块包括:获取单元,用于获取拓扑数据网络结构中各节点的出度以及层级;概率计算单元,用于分别以任一节点作为目标节点,根据所述目标节点的出度、所述目标节点所在层级中节点的最大出度、及所述拓扑数据网络结构中各节点的最大出度计算所述目标节点的抽样概率;节点确定单元,用于根据所述抽样概率确定所述目标节点是否为第二样本节点;裁剪单元,用于根据所述第二样本节点对包括所述第二样本节点的分支进行裁剪,根据裁剪后的所述分支形成抽样后的拓扑数据网络结构。10.如权利要求9所述的拓扑数据抽样装置,其特征在于:所述概率计算单元,具体用于分别以任一节点作为目标节点,根据目标节点的出度与所述目标节点所在层级中节点的最大出度的比值、以及所述目标节点的出度与所述拓扑数据网络结构中各节点的最大出度的比值计算所述目标节点的抽样概率;所述裁剪单元具体用于根据所述第二样本节点确定包括所述第二样本节点的第二样本分支,选取包含相同第二样本节点的第二样本分支中长度最小的第二样本分支,根据所述长度最小的第二样本分支形成抽样后的拓扑数据网络结构。11.如权利要求9或10所述的拓扑数据抽样装置,其特征在于:还包括节点合并单元,用于将同一分支中出度小于预设出度值的相邻多个节点进行合并。12.如权利要求9或10所述的拓扑数据抽样装置,其特征在于:还包括对象节点单元,用于获取所述抽样后的拓扑数据网络结构中出度大于预设值的节点作为对象节点、或者获取所述抽样后的拓扑数据网络结构中预设比例的出度相对较大的节点作为对象节点;补边单元,用于对所述对象节点进行补边。13.—种拓扑数据视化方法,包括:根据权利要求1-6中任意一项所述拓扑数据抽样方法对拓扑数据网络结构进行抽样;根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显示。14.一种拓扑数据视化系统,包括:如权利要求7-12任意一项所述的拓扑数据抽样装置,用于对拓扑数据网络结构进行抽样;重构装置,用于根据抽样后的拓扑数据网络结构中保留的节点和边重构数据网络并显不。

百度查询: 腾讯科技(深圳)有限公司 拓扑数据抽样方法和装置、视化方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。