买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】网页识别方法及装置和设置率确定方法和装置_北京国双科技有限公司_201510924044.8 

申请/专利权人:北京国双科技有限公司

申请日:2015-12-14

公开(公告)日:2020-05-22

公开(公告)号:CN106874300B

主分类号:G06F16/955(20190101)

分类号:G06F16/955(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.05.22#授权;2017.07.14#实质审查的生效;2017.06.20#公开

摘要:本申请公开了一种网页识别方法及装置和设置率确定方法和装置。其中,该方法包括:从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志;对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源;判断访问来源的网页是否为目标网站中除首页页面之外的其他网页;以及在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接。本申请解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。

主权项:1.一种网页识别方法,其特征在于,包括:从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在所述目标网站的网页上用于跳转回所述目标网站的首页页面的链接;其中,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页;其中,所述访问来源是指通过链接跳转到首页页面的网页来源。

全文数据:网页识别方法及装置和设置率确定方法和装置技术领域[0001]本申请涉及互联网领域,具体而言,涉及一种网页识别方法及装置和设置率确定方法和装置。背景技术[0002]在互联网领域,为了提高网站的导航效果,通常会在网站中的网页上设置返回首页链接,用户在浏览网站的过程中可以直接通过该链接返回到网站的首页。网站返回首页链接设置率指的是网站中设置返回首页链接的网页占全部网页的比值。返回首页链接设置率这一指标在很大程度上反应了网站的用户体验情况,也是评价网站绩效的一项重要指[0003]目前,通常是通过人工搜索的方式来确定网页上是否设置了返回首页链接。具体地,通过人工登陆访问网站,查看该网站的网页上是否设置了返回首页链接,进而统计设置了返回首页链接的网页数,用以计算返回首页链接设置率。然而,由于通过人工方式来确定网页上是否设置返回首页链接,其效率低且工作量大。[0004]针对上述的问题,目前尚未提出有效的解决方案。发明内容[0005]本申请实施例提供了一种网页识别方法及装置和设置率确定方法和装置,以至少解决现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。[0006]根据本申请实施例的一个方面,提供了一种网页识别方法,包括:从目标网站的访问曰志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的曰志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在目标网站的网页上用于跳转回目标网站的首页页面的链接。[0007]进一步地,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。[0008]进一步地,对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源包括:从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。[0009]进一步地,从目标网站的访问日志中查询出目标访问日志包括:将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。[0010]根据本申请实施例的另一方面,还提供了一种设置率确定方法,包括:对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。[0011]根据本申请实施例的另一方面,还提供了一种网页识别装置,包括:查询单元,用于从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;提取单元,用于对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断单元,用于判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及确定单元,用于在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在目标网站的网页上用于跳转回目标网站的首页页面的链接。[0012]进一步地,所述判断单元包括:判断模块,用于判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;第一确定模块,用于在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。[0013]进一步地,所述提取单元具体用于从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。[0014]进一步地,所述查询单元包括:匹配模块,用于将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;第二确定模块,用于将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。[0015]根据本申请实施例的另一方面,还提供了一种设置率确定装置,包括:第一统计单元,用于对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;第二统计单元,用于识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及计算单元,用于根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。[0016]根据本申请实施例,从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页,在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接,通过解析访问日志,识别出设置有返回首页链接的网页,相对于现有技术中的人工方式,提高了效率,降低了工作量,解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。附图说明[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:[0018]图1是根据本申请实施例的网页识别方法的流程图;[0019]图2是根据本申请实施例的设置率确定方法的流程图;[0020]图3是根据本申请实施例的网页识别装置的示意图;[0021]图4是根据本申请实施例的设置率确定装置的示意图。具体实施方式[0022]为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。[0023]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0024]根据本申请实施例,提供了一种网页识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。[0025]图1是根据本申请实施例的网页识别方法的流程图,如图1所示,该方法包括如下步骤:[0026]步骤S102,从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志。[0027]本申请实施例的目标网站的访问日志可以通过在目标网站添加Tracker,收集用户在目标网站的访问日志,其中,Tracker的本质为一段JS脚本,嵌入在目标网站的源代码中,可以将用户在目标网站的访问日志发送到指定的服务器,其中,目标网站的访问日志记录有不同的用户在目标网站上的访问行为数据,包括站内搜索的行为数据。[0028]步骤S104,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源。[0029]本实施例中,从目标网站的所有访问日志中,查询出访问过目标网站的首页页面的访问日志,即目标访问日志,以便于从这些日志中解析出访问首页页面的访问来源。这里的访问来源是指通过链接跳转到首页页面的网页来源,例如,用户访问网页A,然后通过网页A跳转到目标网站的首页页面,那么网页A的URL会记录在目标网站的首页页面的访问日志中,用以表示访问目标网站的首页页面的访问来源。[0030]步骤S106,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页。[0031]步骤S108,在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接,其中,返回首页链接为设置在目标网站的网页上用于跳转回目标网站的首页页面的链接。[0032]本实施例中,在确定出首页页面的访问来源之后,判断该访问来源的页面是否是目标网站的中除首页页面之外的其他网页,也即是判断跳转到目标网站的首页页面的访问来源页面是否为所述目标网站中的网页,如果是,则认为该访问来源的网页上设置有返回首页链接,即,用户在访问非首页页面之后,通过该页面上的返回首页链接跳转到首页页面。反之,则该访问来源则是其他网站的网页,因此,也就不会设置有返回首页链接。[0033]根据本申请实施例,从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页,在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接,通过解析访问日志,识别出设置有返回首页链接的网页,相对于现有技术中的人工方式,提高了效率,降低了工作量,解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。[0034]优选地,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页包括:判断访问来源的网页的统一资源定位符中包含的域名是否与目标网站的域名相同;在访问来源的网页的统一资源定位符中包含的域名与目标网站的域名相同时,确定访问来源的网页是目标网站中除首页页面之外的其他网页。[0035]由于每个网页的统一资源定位符URL中都包含其所在网站的域名,因此,在判断上述访问来源的网页是否为目标网站的网页时,可以判断该访问来源的网页对应的URL中含有的域名是否与目标网站的域名相同,如果相同,则认为访问来源的网页为上述目标网站的网页,这种情况下,可以认为该访问来源的网页为目标网站中非首页的网页;反之,则认为上述访问来源网页为其他网站的网页。[0036]根据本申请实施例,通过访问来源的网页的URL来确定该网页是否为目标网站的非首页的网页,从而可以从上述访问来源的网页中剔除从其他网站的网页跳转到目标网站的首页页面的网页。[0037]优选地,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源包括:从目标访问日志中解析出目标字段,其中,目标字段为记录有上一跳网页的统一资源定位符的字段。[0038]本实施例中,可以在目标网站的访问日志中可以设置有目标字段,该目标字段用于记录网页的上一跳网页的URL字段即ReferURL字段。如果用户通过浏览器的返回按钮返回首页时,访问日志中记录的ReferURL为空,而通过点击网页上的返回首页链接返回到首页时,访问日志会将当前网页的URL记录在首页的ReferURL字段。[0039]在提取出目标字段之后,可以利用该目标字段中的URL来判断访问来源的网页是否为目标网站的非首页的网页,具体可以参见上述实施例,这里不再赘述。[0040]优选地,从目标网站的访问日志中查询出目标访问日志包括:将目标网站的首页页面对应的统一资源定位符与目标网站的访问日志进行匹配;将从目标网站的访问日志中匹配出的包含有目标网站的首页页面对应的统一资源定位符的访问日志作为目标访问日Jlli、〇[OO41]本实施例中,在获取到目标网站的访问日志之后,可以逐条解析该访问日志,将目标网站的首页页面对应的URL与目标网站的访问日志记录的访问网页的URL进行匹配,从而匹配出与目标网站的首页页面对应的URL相同的URL对应的页面的访问日志,也即是,以目标网站的首页页面对应的URL为查询条件,从目标网站的访问日志中查询出访问目标网站的首页页面的访问日志。[0042]下面对本申请实施例的一种可选实施方式进行描述,具体包括:[0043]步骤1:在目标网站部署Tracker。其中,部署完成之后,用户在该目标网站的所有访问日志都会被发送到服务器,其中,访问日志中还可以记录有站内搜索的数据。[0044]步骤2:配置目标网站的首页URL及其域名D。[0045]步骤3:逐条解析服务器收集到的访问日志。[0046]步骤4:从步骤3的结果中找到访问首页的访问曰志,即目标访问日志。具体地可以通过判断访问页面的URL与步骤2中的首页的URL是否相同来确定目标访问日志。[0047]步骤5:从步骤4的结果中找到ReferURL的域名与目标网站域名D相同的日志,其中,ReferURLS卩为上述中的目标字段,记录有上一跳网页的URL。这里找出ReferURL的域名与目标网站域名D相同的日志即删除ReferURL为其他网站或者为空的记录,这部分记录所对应的ReferURL即为网站中设置了返回首页链接的页面。[0048]这样,就可以通过统计网站中总的被访问页面数M和步骤5中分析出的总的ReferURL数量N由于ReferURL为其他网站或者为空的记录被剔除,这里得到的ReferURL数量N即为设置有返回首页链接的网页数量),然后通过公式NM计算出目标网站的返回首页链接设置率。另外,若需要统计某段时间的返回首页链接设置率只需要按照上述步骤分析该时间段的网站访问日志即可。[0049]根据本申请实施例,还提供了一种设置率确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。[0050]如图2所示,该方法包括:[0051]步骤S202,对目标网站的访问日志进行解析,统计出目标网站中被访问的网页总数。[0052]步骤S204,识别出目标网页,统计目标网页的数量,其中,目标网页为设置有返回首页链接的网页。[0053]目标网页具体为上述被访问的网页中设置有返回首页链接的网页,其中,返回首页链接即为网页上用于跳转到目标网站的首页的链接。[0054]本申请实施例中,可以采用本申请上述实施例中所述的网页识别方法来识别被访问的网页中设置有返回首页链接的网页即目标网页,再统计出目标网页的总数量。[0055]步骤S2〇6,根据网页总数和目标网页的数量计算得到目标网站上的返回首页链接的设置率。[0056]由于网站返回首页链接设置率指的是网站中设置返回首页链接的网页占全部网页的比值,本实施例中,通过将目标网页的数量除以上述中网页总数得到的值作为返回首页链接的设置率。[0057]根据本申请实施例,通过利用本申请实施例中的网页识别方法来识别设置有返回首页链接的网页,从而统计出该类网页的总数,根据统计出的被访问的网页总数以及设置有返回首页链接的网页的数量计算得到返回首页链接的设置率,相对于现有技术中采用人工方式进行网页识别,其效率得到了较大提高。[0058]本申请实施例还提供了一种网页识别装置,该装置可以用于执行本申请实施例的网页识别方法,如图3所示,该装置包括:查询单元301、提取单元303、判断单元305和确定单元307。[0059]查询单元301用于从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志。[0060]本申请实施例的目标网站的访问日志可以通过在目标网站添加Tracker,收集用户在目标网站的访问日志,其中,Tracker的本质为一段JS脚本,嵌入在目标网站的源代码中,可以将用户在目标网站的访问日志发送到指定的服务器,其中,目标网站的访问日志记录有不同的用户在目标网站上的访问行为数据,包括站内搜索的行为数据。[0061]提取单元303用于对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源。[0062]本实施例中,从目标网站的所有访问日志中,查询出访问过目标网站的首页页面的访问日志,即目标访问日志,以便于从这些日志中解析出访问首页页面的访问来源。这里的访问来源是指通过链接跳转到首页页面的网页来源,例如,用户访问网页A,然后通过网页A跳转到目标网站的首页页面,那么网页A的URL会记录在目标网站的首页页面的访问日志中,用以表示访问目标网站的首页页面的访问来源。[0063]判断单元3〇5用于判断访问来源的网页是否为目标网站中除首页页面之外的其他网页。[0064]确定单元3〇7用于在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接。[0065]本实施例中,在确定出首页页面的访问来源之后,判断该访问来源的页面是否是目标网站的中除首页页面之外的其他网页,也即是判断跳转到目标网站的首页页面的访问来源页面是否为所述目标网站中的网页,如果是,则认为该访问来源的网页上设置有返回首页链接,即,用户在访问非首页页面之后,通过该页面上的返回首页链接跳转到首页页面。反之,则该访问来源则是其他网站的网页,因此,也就不会设置有返回首页链接。[0066]根据本申请实施例,从目标网站的访问日志中查询出目标访问日志,其中,目标访问日志为访问目标网站的首页页面的日志,对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源,判断访问来源的网页是否为目标网站中除首页页面之外的其他网页,在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接,通过解析访问日志,识别出设置有返回首页链接的网页,相对于现有技术中的人工方式,提高了效率,降低了工作量,解决了现有技术中通过人工方式来确定网页上是否设置返回首页链接的效率低且工作量大的技术问题。[0067]优选地,判断单兀包括:判断模块,用于判断访问来源的网页的统一资源定位符中包含的域名是否与目标网站的域名相同;第一确定模块,用于在访问来源的网页的统一货源定位符中包含的域名与目标网站的域名相同时,确定访问来源的网页是目标网站中除首页页面之外的其他网页。[0068]由于每个网页的统一资源定位符URL中都包含其所在网站的域名,因此,在判断上述访问来源的网页是否为目标网站的网页时,可以判断该访问来源的网页对应的URL中含有的域名是否与目标网站的域名相同,如果相同,则认为访问来源的网页为上述目标网站的网页,这种情况下,可以认为该访问来源的网页为目标网站中非首页的网页;反之,则认为上述访问来源网页为其他网站的网页。_[0069]根据本申请实施例,通过访问来源的网页的URL来确定该网页是否为目标网站的非首页的网页,从而可以从上述访问来源的网页中剔除从其他网站的网页跳转到目标网站的首页页面的网页。[0070]优选地,提取单元具体用于从目标访问日志中解析出目标字段,其中,目标字段为记录有上一跳网页的统一资源定位符的字段。[0071]本实施例中,可以在目标网站的访问日志中可以设置有目标字段,该目标字段用于记录网页的上一跳网页的URL字段即ReferURL字段。如果用户通过浏览器的返回按钮返回首页时,访问日志中记录的ReferURL为空,而通过点击网页上的返回首页链接返回到首页时,访问日志会将当前网页的URL记录在首页的ReferURL字段。[0072]在提取出目标字段之后,可以利用该目标字段中的URL来判断访问来源的网页是否为目标网站的非首页的网页,具体可以参见上述实施例,这里不再赘述。[0073]优选地,查询单元包括:匹配模块,用于将目标网站的首页页面对应的统一资源定位符与目标网站的访问日志进行匹配;第二确定模块,用于将从目标网站的访问日志中匹配出的包含有目标网站的首页页面对应的统一资源定位符的访问日志作为目标访问日志。[0074]本实施例中,在获取到目标网站的访问日志之后,可以逐条解析该访问日志,将目标网站的首页页面对应的URL与目标网站的访问日志记录的访问网页的URL进行匹配,从而匹配出与目标网站的首页页面对应的URL相同的URL对应的页面的访问日志,也即是,以目标网站的首页页面对应的URL为查询条件,从目标网站的访问日志中查询出访问目标网站的首页页面的访问日志。[0075]所述设置率确定装置包括处理器和存储器,上述查询单元301、提取单元303、判断单元305和确定单元307等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。[0076]处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别网页中是否设置有返回首页链接。[0077]存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器RAM和或非易失性内存等形式,如只读存储器ROM或闪存flashRAM,存储器包括至少一个存储芯片。[0078]本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从目标网站的访问日志中查询出目标访问曰志,其中,目标访问日志为访问目标网站的首页页面的日志;对目标访问日志进行解析,提取出访问目标网站的首页页面的访问来源;判断访问来源的网页是否为目标网站中除首页页面之外的其他网页;以及在访问来源的网页是目标网站中除首页页面之外的其他网页时,确定访问来源的网页上设置有返回首页链接。八、[0079]本申请实施例还提供了一种设置率确定装置,该装置可以用于执行本申请实施例的设置率确定方法,如图4所示,该装置包括:第一统计单元401、第二统计单元403和计算单元405。[0080]桌一统计单兀401用于对目标网站的访问日志进行解析,统计出目标网站中被访问的网页总数;[0081]第二统计单元403用于利用权利要求1至4中任一项的网页识别方法识别出目标网页,统计目标网页的数量,其中,目标网页为设置有返回首页链接的网页;以及[0082]目标网页具体为上述被访问的网页中设置有返回首页链接的网页,其中,返回首页链接即为网页上用于跳转到目标网站的首页的链接。[0083]本申请实施例中,可以采用本申请上述实施例中所述的网页识别方法来识别被访问的网页中设置有返回首页链接的网页即目标网页,再统计出目标网页的总数量。[0084]计算单元405用于根据网页总数和目标网页的数量计算得到目标网站上的返回首页链接的设置率。[0085]由于网ii占返回首页链接设置率指的是网站中设置返回首页链接的网页占全部网页的比值,本实施例中,通过将目标网页的数量除以上述中网页总数得到的值作为返回首页链接的设置率。[0086]根据本申请实施例,通过利用本申请实施例中的网页识别方法来识别设置有返回首页链接的网页,从而统计出该类网页的总数,根据统计出的被访问的网页总数以及设置有返回首页链接的网页的数量计算得到返回首页链接的设置率,相对于现有技术中采用人工方式进行网页识别,其效率得到了较大提高。[0087]所述设置率确定装置包括处理器和存储器,上述第一统计单元401、第二统计单元403和计算单元405等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。[0088]处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来计算返回首页链接的设置率。[0089]存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器RAM和或非易失性内存等形式,如只读存储器ROM或闪存flashRAM,存储器包括至少一个存储芯片。[0090]本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对目标网站的访问日志进行解析,统计出目标网站中被访问的网页总数;识别出目标网页,统计目标网页的数量,其中,目标网页为设置有返回首页链接的网页;根据网页总数和目标网页的数量计算得到目标网站上的返回首页链接的设置率。[0091]上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。[0092]在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。[0093]在本申请所提供的几个实施例中,应该理解到,所掲露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。[0094]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0095]另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0096]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可为个人计算机、服务器或者网络设备等执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器ROM,Read-OnlyMemory、随机存取存储器RAM,RandomAccessMemory、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。[0097]以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若千改进和润饰,这些改进和润饰也应视为本申请的保护范围。

权利要求:1.一种网页识别方法,其特征在于,包括:从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的曰志;对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在所述目标网站的网页上用于跳转回所述目标网站的首页页面的链接。2.根据权利要求1所述的方法,其特征在于,判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括:判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。3.根据权利要求2所述的方法,其特征在于,对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源包括:从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。4.根据权利要求2所述的方法,其特征在于,从目标网站的访问日志中查询出目标访问日志包括:将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。5.—种设置率确定方法,其特征在于,包括:对目标网站的访问日志进行解析,统计出所述目标网站中被访问的网页总数;利用权利要求1至4中任一项所述的网页识别方法识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。6.—种网页识别装置,其特征在于,包括:查询单元,用于从目标网站的访问日志中查询出目标访问日志,其中,所述目标访问日志为访问所述目标网站的首页页面的日志;提取单元,用于对所述目标访问日志进行解析,提取出访问所述目标网站的首页页面的访问来源;判断单元,用于判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页;以及确定单元,用于在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时,确定所述访问来源的网页上设置有返回首页链接,其中,所述返回首页链接为设置在所述目标网站的网页上用于跳转回所述目标网站的首页页面的链接。7.根据权利要求6所述的装置,其特征在于,所述判断单元包括:判断模块,用于判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同;第一确定模块,用于在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时,确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。8.根据权利要求7所述的装置,其特征在于,所述提取单元具体用于从所述目标访问日志中解析出目标字段,其中,所述目标字段为记录有上一跳网页的统一资源定位符的字段。9.根据权利要求7所述的装置,其特征在于,所述查询单元包括:匹配模块,用于将所述目标网站的首页页面对应的统一资源定位符与所述目标网站的访问日志进行匹配;_第二确定模块,用于将从所述目标网站的访问日志中匹配出的包含有所述目标网站的首页页面对应的统一资源定位符的访问日志作为所述目标访问日志。10.—种设置率确定装置,其特征在于,包括:第一统计单元,用于对目标网站的访问曰志进行解析,统计出所述目标网站中被访问的网页总数;第二统计单元,用于利用权利要求1至4中任一项所述的网页识别方法识别出目标网页,统计所述目标网页的数量,其中,所述目标网页为设置有返回首页链接的网页;以及计算单元,用于根据所述网页总数和所述目标网页的数量计算得到所述目标网站上的所述返回首页链接的设置率。

百度查询: 北京国双科技有限公司 网页识别方法及装置和设置率确定方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。