【发明授权】网络内容异步抓取系统和方法_百度在线网络技术(北京)有限公司_201611053534.6 

申请/专利权人:百度在线网络技术(北京)有限公司

申请日:2016-11-24

发明/设计人:卢刚;孙鹏宇;覃安

公开(公告)日:2020-05-22

代理机构:北京清亦华知识产权代理事务所(普通合伙)

公开(公告)号:CN106599094B

代理人:宋合成

主分类号:G06F16/951(20190101)

地址:100085 北京市海淀区上地十街10号百度大厦三层

分类号:G06F16/951(20190101);G06F16/955(20190101);G06F9/48(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.05.22#授权;2017.05.24#实质审查的生效;2017.04.26#公开

摘要:本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。

主权项:1.一种网络内容异步抓取系统,其特征在于,包括:任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;驱动器,用于被所述调度器触发之后,读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;执行器,用于从所述抓取池中读取所述URL,并对所述URL进行抓取。

全文数据:网络内容异步抓取系统和方法技术领域[0001] 本发明涉及互联网技术领域,尤其涉及一种网络内容异步抓取系统和方法。背景技术[0002] 随着互联网的发展,互联网会包含海量的网络内容,一些应用场景下,需要采用一些计算机技术从海量的网络内容中抽取出用户需要的网络内容,该计算机技术被称为抓取。例如,可以通过使用抓取器来对网络内容进行抓取。[0003] 相关技术中,抓取器采用并发控制策略,或者每秒查询率QueryPerSecond,QPS控制策略,其中,并发控制策略,通过线程或者进程独立控制总量的并发队列长度,每个进程或者线程同步执行抓取,保证队列总长度固定,对系统的压力固定,而QPS控制策略,通过固定的频率执行抓取。[0004] 这两种方式下,控制粒度过于粗放,对于慢后端系统而言,抓取性能较差,无法充分保障网络内容抓取的稳定性,易造成抓取系统的雪崩效应。发明内容[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。[0006] 为此,本发明的一个目的在于提出一种网络内容异步抓取系统,能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。[0007] 本发明的另一个目的在于提出一种网络内容异步抓取方法。[0008] 为达到上述目的,本发明第一方面实施例提出的网络内容异步抓取系统,包括:任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;驱动器,用于被所述调度器触发之后,读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;执行器,用于从所述抓取池中读取所述URL,并对所述URL进行抓取。[0009] 本发明第一方面实施例提出的网络内容异步抓取系统,通过从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值,以及从抓取池中读取URL,并对URL进行抓取,能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。[0010] 为达到上述目的,本发明第二方面实施例提出的网络内容异步抓取方法,包括:获取至少一个任务队列;从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;从所述抓取池中读取所述URL,并对所述URL进行抓取。[0011] 本发明第二方面实施例提出的网络内容异步抓取方法,通过从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值,以及从抓取池中读取URL,并对URL进行抓取,能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。[0012] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明[0013] 本发明上述的和或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:[0014]图1是本发明一实施例提出的网络内容异步抓取系统的结构示意图;[0015]图2是本发明另一实施例提出的网络内容异步抓取系统的结构示意图;[0016]图3是本发明实施例中的抓取效率示意图;[0017]图4是本发明一实施例提出的网络内容异步抓取方法的流程示意图;[0018]图5是本发明另一实施例提出的网络内容异步抓取方法的流程示意图;[0019]图6是本发明另一实施例提出的网络内容异步抓取方法的流程示意图。具体实施方式[0020]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。[0021]图1是本发明一实施例提出的网络内容异步抓取系统的结构示意图。[0022] 参见图1,该网络内容异步抓取系统包括:任务队列管理器100,用于提供至少一个任务队列;调度器200,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器300对URL进行调度;驱动器300,用于被调度器200触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池400,并根据任务信息控制URL注入抓取池400的频率,任务信息包括每秒查询率和并发值;执行器500,用于从抓取池中读取URL,并对URL进行抓取。[0023] 在本发明的一个实施例中,该网络内容异步抓取系统包括:任务队列管理器100,用于提供至少一个任务队列。[0024] 在本发明的实施例中,任务队列是预先放入任务队列管理器100中的,其中,任务队列为至少一个,每个任务队列中包含至少一个的待抓取网络内容的统一资源定位符URL。[0025] 在本发明的实施例中,在预先将任务队列放入任务队列管理器100之前,可以配置每个任务队列的任务信息,其中,任务信息可以例如包括该任务队列所属任务的ID、任务所在后端的环境类型、QPS,以及执行该任务所需的并发值等,进一步地,在配置完毕每个任务队列的任务信息之后,可以将该任务信息写入数据库中的数据表中,以后续进行调度,在此不作限制。[0026] 在本发明的实施例中,每个任务队列中还包含每个待抓取网络内容的URL的附加信息,例如,标头Header,以后续进行调度,在此不作限制。[0027] 在本发明的实施例中,任务队列可以采用redis服务提供的list数据结构进行待抓取网络内容的URL的压入和弹出操作,以实现队列的数据结构,例如,在需要对任务队列中URL进行调度时,可以rpop方法弹出,在需要将URL写入任务队列中时,可以使用rpush方法压入,操作简单易实现。[0028] 在本发明的一个实施例中,该网络内容异步抓取系统包括:调度器200,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器300对URL进行调度。[0029] 在本发明的实施例中,调度器200可以实现全局策略控制的功能,在网络内容抓取过程中,调度器200可以遍历每个任务队列中待抓取网络内容的URL,并获取该URL所属任务所在后端的环境类型,以根据后端的环境类型进行调度,例如,根据后端的环境类型可以确定当前需要执行抓取的任务,当前需要暂停的任务,当前需要结束的任务,能够实现多个环境类型的后端的联动,增强网络内容异步抓取系统的控制效果,有效提升高并发时网络内容抓取的灵活性。[0030] 例如,调度器200的后台服务器会读取预设数据表,其中,该预设数据表中可以记录每个环境类型,以及与每个环境类型对应的并发信息,该并发信息例如,环境类型A的后端的总并发值和单环境并发值,其中,总并发值表示环境类型为环境类型A的后端所能承载的待抓取网络内容的URL的数量的加和,单环境并发值表示环境类型为环境类型A的一个后端所能承载的待抓取网络内容的URL的数量。进一步地,调度器200在读取到待抓取网络内容的URL所属任务所在后端的环境类型后,可以计算当前时间点上该环境类型的剩余并发值,如果剩余并发值不足,则不会触发抓取该URL,在本发明的实施例中,由于不同环境类型之间无共享关系,因此,调度器200可以对多个任务队列独立调度互不影响,将策略与架构解耦和。[0031] 在本发明的实施例中,当调度器200确定一个待抓取网络内容的URL为当前需要执行抓取的任务时,会进一步将该任务的状态设置为执行中,并启动该任务的对应的驱动器300。[0032] 可选地,一些实施例中,参见图2,调度器200包括:[0033] 读取模块210,用于从每个任务队列中读取URL。[0034] 调度模块220,用于根据URL所属任务所在后端的环境类型来触发驱动器300对URL进行调度。[0035] 可选地,一些实施例中,参见图2,调度模块220包括:[0036] 第一获取子模块221,用于获取URL所属任务所在后端的环境类型。[0037] 第二获取子模块222,用于根据环境类型与并发的对应关系来获取与环境类型对应的并发信息。[0038]判断子模块223,用于根据并发信息判断环境类型的剩余并发值是否达到预设阈值。[0039]调度子模块224,用于在剩余并发值未达到预设阈值时,触发驱动器300对URL进行调度,以及在剩余并发值达到预设阈值时,不触发驱动器300对URL进行调度。[0040] 在本发明的一个实施例中,该网络内容异步抓取系统包括:驱动器300,用于被调度器200触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池400,并根据任务信息控制URL注入抓取池400的频率,任务信息包括每秒查询率和并发值。[0041] 在本发明的实施例中,参见图1,每个任务队列对应一个驱动器300,可以理解的是,多个任务队列对应多个驱动器300。[0042] 在本发明的实施例中,驱动器300是针对一个任务队列任务的策略控制器,每个驱动器300执行对应任务的调度。驱动器300可以由调度器200触发启动,在驱动器300处于启动状态时,会读取任务信息中的每秒查询率QPS和并发值,并根据任务信息执行rpop方法,以从任务队列调度待抓取网络内容的URL。[0043] 一些实施例中,驱动器300还用于:获取URL的标识,并基于redis服务的set数据结构将标识和对应的URL对应存储,以生成URL的记录信息。[0044] 在本发明的实施例中,驱动器300在生成URL的记录信息之后,可以将该URL发送到抓取池400,每返回一个抓取结果后,worker的回调函数会从set数据结构中将该URL的记录信息删除,能够有效节省存储空间。[0045] 在本发明的实施例中,驱动器300根据任务信息控制URL注入抓取池400的频率,任务信息包括每秒查询率QPS和并发值,能够保证单个待抓取网站内容的URL的并发可控。通过控制单个待抓取网站内容的URL的QPS,实现了单个待抓取网站内容的URL的抓取策略。[0046] 在本发明的实施例中,在对单个待抓取网站内容的URL进行抓取的过程中,驱动器300可以在预设时间点上扫描读取URL所属任务的任务信息,能够实现动态监测任务信息的变更,进一步提升高并发时网络内容抓取的灵活性。[0047] 在本发明的一个实施例中,该网络内容异步抓取系统还可以包括:抓取池400。[0048] 抓取池400中包括多个待抓取网络内容的URL。[0049]具体地,每个任务队列对应的驱动器300会将确定出的当前需要执行抓取的任务放入抓取池400中。[0050] 在本发明的实施例中,抓取池400可以采用redis服务提供的阻塞队列方法SP,list数据结构和brpop方法配合,能够有效提升抓取效率。[0051] 在本发明的一个实施例中,该网络内容异步抓取系统包括:执行器500,用于从抓取池400中读取URL,并对URL进行抓取。[0052] 可选地,一些实施例中,参见图2,该网络内容异步抓取系统还包括:[0053] 获取模块500,用于获取已抓取完毕的URL的标识作为目标标识,并删除set数据结构中目标标识对应的URL的记录信息。[0054] 在本发明的实施例中,执行器500为执行抓取并进行封装转发的执行单元,执行器500的数量可以为至少一个。执行器500通过brpop方法阻塞在抓取池400中,在监测到抓取池400接收到一个待抓取网站内容的URL,多个执行器500能够实现对待抓取网站内容的URL进行抢占执行。并且,在本发明的实施例中,由于执行器500耗费资源,可以对执行器500进行分布式部署,且由于采用list数据结构和brpop方法配合,能够实现list数据结构和处于阻塞状态的执行器500不在同一台主机上部署,因此,可以实现在不同性能的主机上启动不同数量的执行器500,从而实现负载均衡。执行器500在执行完抓取后,会调用该待抓取网站内容的URL的回调函数,将驱动器300中该待抓取网站内容的URL的记录信息删除,从而,执行完毕该待抓取网站内容的URL的抓取生命周期。[0055]作为一种示例,参见图3,图3为本发明实施例中的抓取效率示意图,由图3可以看出,在2015年11月12日之前,使用原有的异步抓取器,抓取时间均在30分钟以上,而系统设计要求为目标抓取时间低于30分钟,显然原有的异步抓取器达不到系统设计要求,抓取性能较差,而在11月12日之后,在本发明实施例中的网络内容异步抓取系统上线运营后,抓取时间符合目标抓取时间低于30分钟,抓取效率提升了约20%,负载更加均衡,并发控制策略比较合理,降低中间过程消耗等因素共同作用的影响。[0056] 本实施例中,通过从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值,以及从抓取池中读取URL,并对URL进行抓取,能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。[0057]图4是本发明一实施例提出的网络内容异步抓取方法的流程示意图。[0058] 参见图4,该网络内容异步抓取方法包括:[0059] S41:获取至少一个任务队列。[0060] S42:从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度。[0061] 在本发明的实施例中,URL所属任务所在后端的环境类型不同或者相同。[0062] 一些实施例中,参见图5,步骤S42具体包括:[0063] S51:从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并获取URL所属任务所在后端的环境类型。[0064] S52:根据环境类型与并发的对应关系来获取与环境类型对应的并发信息。[0065] S53:根据并发信息判断环境类型的剩余并发值是否达到预设阈值。[0066] S54:在剩余并发值未达到预设阈值时,触发驱动器对URL进行调度,以及在剩余并发值达到预设阈值时,不触发驱动器对URL进行调度。[0067] 本实施例中,通过根据URL所属任务所在后端的环境类型与并发的对应关系来获取与环境类型对应的并发信息,根据并发信息判断环境类型的剩余并发值是否达到预设阈值,在剩余并发值未达到预设阈值时,触发驱动器对URL进行调度,以及在剩余并发值达到预设阈值时,不触发驱动器对URL进行调度,能够实现全局策略控制的功能,实现多个环境类型的后端的联动,增强网络内容异步抓取系统的控制效果,有效提升高并发时网络内容抓取的灵活性。[0068] S43:读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值。[0069] 在本发明的实施例中,抓取池可以采用redis数据库的list数据结构存储URL。[0070] S44:从抓取池中读取URL,并对URL进行抓取。[0071] —些实施例中,参见图6,该网络内容异步抓取方法还包括:[0072] S61:获取URL的标识,并基于redis服务的set数据结构将标识和对应的URL对应存储,以生成URL的记录信息。[0073] S62:获取已抓取完毕的URL的标识作为目标标识,并删除set数据结构中目标标识对应的URL的记录信息。[0074]需要说明的是,前述图1-图3实施例中对网络内容异步抓取系统实施例的解释说明也适用于该实施例的网络内容异步抓取方法,其实现原理类似,此处不再赘述。[0075] 本实施例中,获取已抓取完毕的URL的标识作为目标标识,并删除set数据结构中目标标识对应的URL的记录信息,能够有效节省存储空间。[0076] 本实施例中,通过从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值,以及从抓取池中读取URL,并对URL进行抓取,能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。[0077]需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。[0078] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。[0079] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列PGA,现场可编程门阵列FPGA等。[0080] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。[0081] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。[0082]上述提到的存储介质可以是只读存储器,磁盘或光盘等。[0083] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0084] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

权利要求:1.一种网络内容异步抓取系统,其特征在于,包括:任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;驱动器,用于被所述调度器触发之后,读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;执行器,用于从所述抓取池中读取所述URL,并对所述URL进行抓取。2.如权利要求1所述的网络内容异步抓取系统,其特征在于,所述调度器包括:读取模块,用于从每个任务队列中读取所述URL;调度模块,用于根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度。3.如权利要求1所述的网络内容异步抓取系统,其特征在于,所述调度模块包括:第一获取子模块,用于获取所述URL所属任务所在后端的环境类型;第二获取子模块,用于根据环境类型与并发的对应关系来获取与所述环境类型对应的并发信息;判断子模块,用于根据所述并发信息判断所述环境类型的剩余并发值是否达到预设阈值;调度子模块,用于在所述剩余并发值未达到所述预设阈值时,触发所述驱动器对所述URL进行调度,以及在所述剩余并发值达到所述预设阈值时,不触发所述驱动器对所述URL进行调度。4.如权利要求1所述的网络内容异步抓取系统,其特征在于,所述抓取池采用redis数据库的Iist数据结构存储所述URL。5.如权利要求1所述的网络内容异步抓取系统,其特征在于,所述驱动器还用于:获取所述URL的标识,并基于redis服务的set数据结构将所述标识和对应的URL对应存储,以生成所述URL的记录信息。6.如权利要求5所述的网络内容异步抓取系统,其特征在于,还包括:获取模块,用于获取已抓取完毕的URL的标识作为目标标识,并删除所述set数据结构中所述目标标识对应的URL的记录信息。7.如权利要求1或2或3所述的网络内容异步抓取系统,其特征在于,所述URL所属任务所在后端的环境类型不同或者相同。8.—种网络内容异步抓取方法,其特征在于,包括以下步骤:获取至少一个任务队列;从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;从所述抓取池中读取所述URL,并对所述URL进行抓取。9.如权利要求8所述的网络内容异步抓取方法,其特征在于,所述根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度,包括:获取所述URL所属任务所在后端的环境类型;根据环境类型与并发的对应关系来获取与所述环境类型对应的并发信息;根据所述并发信息判断所述环境类型的剩余并发值是否达到预设阈值;在所述剩余并发值未达到所述预设阈值时,触发所述驱动器对所述URL进行调度,以及在所述剩余并发值达到所述预设阈值时,不触发所述驱动器对所述URL进行调度。10.如权利要求8所述的网络内容异步抓取方法,其特征在于,所述抓取池采用redis数据库的Iist数据结构存储所述URL。11.如权利要求8所述的网络内容异步抓取方法,其特征在于,还包括:获取所述URL的标识,并基于redis服务的set数据结构将所述标识和对应的URL对应存储,以生成所述URL的记录信息。12.如权利要求11所述的网络内容异步抓取方法,其特征在于,还包括:获取已抓取完毕的URL的标识作为目标标识,并删除所述set数据结构中所述目标标识对应的URL的记录信息。13.如权利要求8或9所述的网络内容异步抓取方法,其特征在于,所述URL所属任务所在后端的环境类型不同或者相同。

百度查询: 百度在线网络技术(北京)有限公司 网络内容异步抓取系统和方法

vip会员权益升级
价格优惠/年费监控/专利管家/定制微网站 关闭