买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于域名区文件的网站数量判定方法和系统_中国互联网络信息中心_201810442457.6 

申请/专利权人:中国互联网络信息中心

申请日:2018-05-10

公开(公告)日:2020-11-20

公开(公告)号:CN108600054B

主分类号:H04L12/26(20060101)

分类号:H04L12/26(20060101);H04L29/12(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.20#授权;2018.11.30#实质审查的生效;2018.09.28#公开

摘要:本发明提供一种基于域名区文件的网站数量判定方法和系统。该方法包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。本发明能够以较低的成本和较高的效率完成全球网站数量的判定,并且能够识别网站所属地、停靠情况、重复情况、跳转情况,具有较强的实用性。

主权项:1.一种基于域名区文件的网站数量判定方法,包括以下步骤:获取域名区文件,并从中提取域名信息列表;通过对各域名区文件中权威记录进行处理提取全部域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;执行探测任务获取探测数据包括:下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据;通过对所述探测数据统计和分析,获得探测结果;所述获得探测结果包括获取网站数量,网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量。

全文数据:一种基于域名区文件的网站数量判定方法和系统技术领域[0001]本发明涉及信息技术领域,具体涉及一种基于域名区文件的网站数量判定方法和系统。背景技术[0002]在经济或信息技术领域的数据分析或统计报告中,网站数量是一个非常重要的指标数据,网站数量的准确性非常重要,但是网站数量的判定却没有经济有效的技术手段。[0003]目前网站数量的获取方式有如下几种:[0004]a,在某些国家或地区采取网站备案手段可以获取本国或本地区的备案网站数量。[0005]b,通过搜索引擎爬取和遍历网站并进一步分析的方式获取网站数量。[0006]c,通过遍历全球已分配IP地址相应web端口并做进一步分析的方式获取网站数量。[0007]以上方法通常有如下缺点:[0008]a,实现成本高。[0009]b,耗时长,时效性低。[0010]C,有些模式需要非技术手段配合,管理成本高。[0011]d,有些模式准确性低,数据权威性不足。发明内容[0012]针对上述现有技术的缺陷,本发明的目的在于提供一种基于域名区文件的网站数量判定方法和系统,能够以较低的成本和较高的效率完成全球网站数量的判定,并且支持对网站数量进行分地域、分类别等辨别和统计,具有较强的实用性。[0013]为实现上述目的,本发明采取的技术方案是:[0014]—种基于域名区文件的网站数量判定方法,包括以下步骤:[0015]获取域名区文件,并从中提取域名信息列表;[0016]将所述域名信息列表转化为探测任务;[0017]执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;[0018]通过对所述探测数据统计和分析,获得探测结果。[0019]进一步地,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。[0020]进一步地,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。[0021]进一步地,执行探测任务获取探测数据包括,下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。[0022]进一步地,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。[0023]进一步地,所述网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量;网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。[0024]进一步地,还包括:根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。[0025]一种基于域名区文件的网站数量判定系统,包括:[0026]域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;[0027]探测任务生成模块,用以将所述域名信息列表转化为探测任务;[0028]探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;[0029]数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。[0030]进一步地,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。[0031]进一步地,还包括:[0032]任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;[0033]数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;[0034]监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;[0035]配置模块,用于对系统部署环境进行配置。[0036]通过采用了以上的方案,本发明相对于现有技术而言,具有以下优点:[0037]通过本发明的基于域名区文件的网站数量判定方法和系统,能够使技术手段获取和判定网站数量可行,并降低执行成本,使网站数量判定高效,准确。在网站数量判定过程中,可以结合进行网站内容的基本识别和分析,能够识别网站所属地、停靠情况、重复情况、跳转情况。附图说明[0038]图i为本发明一实施例中一种基于域名区文件的网站数量判定系统的架构部署示意图。[0039]图2为本发明一实施例中一种基于域名区文件的网站数量判定方法实施的流程示意图。具体实施方式[0040]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。[0041]如图1所示,在一实施例中所提供的基于域名区文件的网站数量判定系统,其包括:域名区文件获取与分析模块,探测任务生成模块,探测节点模块,任务控制模块,数据传输模块,监测模块,数据分析模块,配置模块及报告生成模块。下面结合附图对各模块的功能和关联介绍如下:[0042]域名区文件获取与分析模块,用于在协商或取得授权后,从各个域名注册局或ICANNTheInternetCorporationforAssignedNamesandNumbers官方网站获取各种TLDTop-LevelDomain的域名区文件,并从每个区文件中提取相应的全部域名信息,若域名信息非英文,贝!J区文件中一定是已经进行过Punycode编码的内容。通过对区文件中权威记录进行处理,从而可获得相应TLD或全部TLD的域名列表,所为进一步网站探测工作的前提条件。[0043]例如,假设“test”这个TLD的区文件内容如下:[0044]test.86400insoaa0.test.afilias-nst.info.noc@abc.info.20112140281080036002764800900[0045]test.86400innsaO.test.afilias-nst.info.[0046]test.86400innsa2.test.afilias-nst.info.[0047]000.test.86400innsnsl.000.test.[0048]nsl•000•test.86400ina3.22.7.43[0049]251ive.test.86400innsnsbl.icmregistry.net.[0050]2600.test.86400innsns73.domaincontrol.com.[0051]2alarm.test.86400innsnsb2.icmregistry.net.[0052]2as.test.86400innsnsl.onlydomains.com.[0053]xn—hoq754q..test.86400innsnsbl.icmregistry.net.[0054]则域名区文件获取与分析模块提取到的域名列表为:[0055]〇〇〇.test[0056]251ive.test[0057]2600.test[0058]2alarm.test[0059]2as.test[0060]xn—hoq754q..test对应Punycode转码前的“企鶴.test”)[0061]探测任务生成模块,用于将域名信息列表转化为探测任务,任务内容包括域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测等内容。若某任务中域名列表长度较长则可进一步切割为多个子任务,比如通过配置限定每个任务的域名列表长度上限为2000,则一个有1〇〇万域名的TLD会对应生成500个子任务。[0062]探测节点模块,用于执行基本网站探测任务,包括从任务控制模块下载探测任务、从域名递归服务器探测域名主机对应IP地址和网站可达性以及网站内容抓取,以及执行站内跳转探测任务。[0063]例如下载到的一个基本探测任务内容包含的递归服务器为1.2.4.8,则针对任务中域名列表内的每个域名执行如下操作:假设域名为cnnic.cn,则向递归服务器1.2.4.8查询WWW•cnniC•cn和cnniC•cn的A记录,即尝试获取域名对应网站的IP地址;然后向查询到的IP地址探测其SO端口服务的可达性,若相应IP地址80端口服务可达,则根据相应URL,抓取相应网站首页页面内容,包括网页内容、网页标题、字节数、返回码。对于无法获取到IP地址的域名,或者IP地址相应端口服务超时或不可用的情况,根据配置进行相应的重复探测,以消除网络不确定性引起的失败情况。[0064]站内跳转探测任务用于在上述基本探测子任务中每个域名的成功探测结果中(有返回码),抽取对应结果为站内跳转的结果集,根据其相应URL形成新的探测列表,执行站内跳转探测子任务,该子任务的目的是确认站内跳转URL的连通情况。由于探测列表是URL,所以不用执行递归探测,直接按照URL探测即可;根据该站内跳转探测子任务的探测结果,可识别内部跳转是否可以访问,同时该域名的探测结果包括首页内容、首页title、字节数)需要以站内跳转的结果为准。[0065]任务控制模块,用于任务和子任务调度管理,确保在探测节点提取任务时有相应任务提供,并提供任务消费和执行情况标记功能。[0066]数据传输模块,用于模块间通信,包括传送任务内容和收集探测结果数据。通过消息队列的方式,每个探测节点将探测到的结果数据写入消息队列,消息队列进行传输控制,并由数据分析模块读取、存储和数据分析。[0067]监测模块,用于确保所有探测节点工作正常以及所有任务被正确执行完毕,在探测节点故障时会触发探测节点的删除,在有新的探测节点可加入时,可提供探测节点加入功能。[0068]数据分析模块,用于探测数据的统计分析,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况等,获取最终分类探测结果。网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量;网站所属地的可通过其对应IP地址所属地进行判断;停靠情况可通过对应网站首页内容中的停靠关键字识别得出;网站重复情况可通过不同域名对应网页内容是否一致得出;跳转情况可通过域名对应网站是否含有可达的跳转页面得出。[0069]配置模块,用于系统配置,包括节点配置、TLD配置、任务大小限制、网站判定配置、重复探测配置。节点配置包括节点名称、IP、任务执行权限;TLD配置包括系统支持的TLD范围集合。网站判定配置包括合格网站首页字节数范围、重复网站是否统计入网站总数、跳转网站是否统计入网站总数;重复探测配置包括子任务最大重复探测次数、A记录探测失败后重复探测次数。[0070]报告生成模块,用于生成探测报告。内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。[0071]相应地,结合图2对应或者参考上述实施例所描述的系统架构,所实施的方法步骤描述如下:[0072]1配置系统。[0073]2通过线上或线下获取域名区文件,从域名区文件提取域名信息列表。[0074]3将域名列表生成探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务进一步分割为探测子任务。[0075]4启动探测点获取探测子任务。_[0076]5探测节点执行探测任务子任务,若任务探测失败或探测结果不完整则执行重新探测。若生成站内跳转探测任务,则相应执行站内跳转探测任务。[0077]6探测点将探测结果传输到数据分析节点,所有探测任务完成后,进行数据统计和分析。[0078]7统计和分析探测数据,获得网站总数、分类网站数量及归属地等探测结果。[0079]8生成探测报告。[0080]最终获得包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数的探测报告。[0081]上述实施例中所描述的系统及方法基于域名区文件对网站进行存在性判定,从而获取网站数量。从递归服务器获取域名对应IP地址,然后根据IP地址结合域名主机进行网站探测。将网站定义规则化,可以同时获取各种符合规则定义的网站数量。可以单个或多个TLD的网站数进行探测和判定,即可以判定全球或分TLD网站数量。在网站数量判定同时进行网站归属地、违法性、备案情况、停靠情况、重复情况判断。在网站探测过程中,针对存在网站抓取网站首页进行分析。[0082]相较于现有技术而言,具有诸多优越之处:[0083]首先,可以利用空闲的网络计算资源参与,成本低。空闲计算资源可通过安装和配置探测节点模块并加入探测系统,从而扩大探测并发度,提高效率和降低成本。[0084]其次,可以在很短时间内完成全球网站数量的判定,效率高。在有20个探测节点,10台递归服务器的条件下,可在48-72小时内完成1.8亿域名对应网站数的探测和统计。[0085]并且,通过数据分析模块可以对网站数量进行分地域、分类别等辨别和统计,实用性强。[0086]最后,通过数据分析模块对探测抓取到的网站首页内容进行基本分析,从而带来更多实用价值。[0087]显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

权利要求:1.一种基于域名区文件的网站数量判定方法,包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。2.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。3.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。4.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述将所述域名信息列表转化为探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务分割为探测子任务。5.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,执行探测任务获取探测数据包括:下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。6.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。7.如权利要求6所述基于域名区文件的网站数量判定方法,其特征在于,网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。8.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,还包括:根据探测结果生成探测报告,所述探测报告包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。9.一种基于域名区文件的网站数量判定系统,其特征在于,包括:域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;探测任务生成模块,用以将所述域名信息列表转化为探测任务;探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。10.如权利要求9所述基于域名区文件的网站数量判定系统,其特征在于,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。11.如权利要求9所述基于域名区文件的网站数量判定系统,其特征在于,还包括:任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;配置模块,用于对系统部署环境进行配置。

百度查询: 中国互联网络信息中心 一种基于域名区文件的网站数量判定方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。