【发明授权】基于无障碍检测结果去重的爬虫搜索方法_浙江大学_202110849849.6

导航：龙图腾网> 最新专利技术> 基于无障碍检测结果去重的爬虫搜索方法_浙江大学_202110849849.6

申请/专利权人：浙江大学

申请日：2021-07-27

公开（公告）日：2024-03-22

公开（公告）号：CN113779377B

主分类号：G06F16/9535

分类号：G06F16/9535;G06F16/951;G06F16/955;G06F18/2321

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要：一种基于无障碍检测结果去重的爬虫搜索方法，预先设置好需要爬取的页面总数，循环地从URL队列中获取链接，访问链接获取网页源代码；再对网页源代码中选取的规则子集进行检测，将检测结果合并成特征矩阵；当从一个网页中提取的所有链接都被访问完毕后，对所有链接到的页面获取的矩阵运用DBSCAN算法进行聚类；对聚类后每一簇的结果进行随机抽样作为这一簇的代表页面，从中抽取链接加入URL队列，一簇中其他的网页由于无障碍检测结果和代表页面相似，因此其中的子链接都被标记为“跳过”，并不实际爬取页面而是直接增加爬取页面的计数；本发明用于网站页面用户友好程度自动化检测中的网页链接爬取阶段，通过控制爬取页面数量加快爬取进度，加快检测效率。

主权项：1.一种基于无障碍检测结果去重的爬虫搜索方法，包括以下步骤：S1从用户输入中获取网站首页的链接和需要获取的网页总数totalCount；将网站首页的链接加入URL队列；S2从待爬取URL队列队首获取一个链接，访问链接获取网页源代码；已访问的链接数finishCount的值加上1；S3如果已经访问的链接数finishCount和被标记为跳过的链接数skipCount符合条件finishCount+skipCount≥totalCount，流程结束，否则继续向下执行；S4对网页源代码提取无障碍检测项矩阵；S41从《GBT37668-2019信息技术互联网内容无障碍可访问性技术要求与测试方法》中选择一个规则子集；选择的规则符合如下标准：1.实现简单，仅依赖网页源代码，而不涉及图像、视频或音频信息；2.检测速度快，所有规则在单个网页的总耗时不超过1秒；按照上述标准，从国标中选择了7条无障碍可访问性规则，规则名称分别是：非文本链接、非文本控件、非文本内容、用户联络反馈、实时用户联络反馈、一致的导航、站内搜索和网站地图；S42对网页源代码应用步骤S41选取的规则进行检测，对于一条规则，检测后获得的结果形式为r＝[Ns，Np，Nf，Ni]的向量，其中Ns为检测点的数量，Np为检测点中结果为通过的数量，Nf为检测点中结果为不通过的数量，Ni为检测点中结果为未知的数量；S43将步骤S42获得的检测规则对应的向量按照固定的顺序拼接成矩阵，规则的顺序是固定的，可以按照规则的编号大小进行排序；获得的矩阵格式为M＝[r1，r2，r3...rn]，其中ri为第i条规则对应的向量；S5当链接A是从链接B对应的网页源代码中提取的时，称B是A的父链接，A是B的子链接；找到当前访问链接的父链接，如果父链接的所有子链接还没有全部被访问，返回步骤S2继续执行；否则，将得到一个由步骤S4获得的矩阵的集合C＝{M1，M2，M3...Mn}，其中Mi为第i个子链接对应网页源代码的无障碍检测项矩阵；对集合使用基于密度聚类的DBSCAN方法进行聚类分析，将集合C划分成多个簇；S6对于步骤S5划分的每一个簇，按照比例λ进行抽样，将抽样结果放入集合R＝{H1，H2，H3...Hm}，剩余的结果放入T＝{Hm+1...Hn}；集合其中Hi为第i个无障碍检测项矩阵对应的原始网页源代码；S7对于步骤S6获取的集合R，从每一个元素中抽取链接加入到URL队列中；对于步骤S6获取的集合T，从每一个元素中抽取链接，将所有的链接加入集合P＝{U1，U2，U3...Un}，其中Ui为第i个链接；集合P中的链接是根据无障碍检测结果被去重的链接，被标记为跳过，将跳过的链接数skipCount加上集合P中元素的数量CardP；S8如果finishCount+skipCount≥totalCount，已经获取了足够的网页，流程结束，否则重复执行步骤S2。

全文数据：

权利要求：

百度查询：浙江大学基于无障碍检测结果去重的爬虫搜索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

下一篇：一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

相关技术

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种电池叠放平台_济源市万洋绿色能源有限公司_202322480402.3

一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

搜索相关技术

合并候选搜索方法和设备_腾讯美国有限责任公司_201980017689.X

用于多分量载波调度的搜索空间配置_高通股份有限公司_202180022307.X

基于图像识别的搜索结果推荐方法及装置_重庆广播电视大学重庆工商职业学院_202010942574.6

一种基于FPGA的图像灰度直方统计和目标搜索方法及系统_西南技术物理研究所_202410130231.8

一种可自动搜索电子标签最佳工作频点的方法及读取装置_上海宜链物联网有限公司_202110614310.2

搜索医学参考图像_西门子医疗有限公司_201910734576.3

位置搜索方法、装置及存储介质_北京四维图新科技股份有限公司_202010213779.0

人车全息档案研判搜索系统_中国电子科技集团公司电子科学研究院_201810981863.X

存储器内搜索技术_维萨国际服务协会_201780088264.9

基于图像搜索商品信息的方法和装置_阿里巴巴(中国)网络技术有限公司_202311786309.3

爬虫相关技术

基于网络爬虫的热点词汇提取方法、装置、终端及介质_平安科技(深圳)有限公司_201911060879.8

一种参数化爬虫下载方法、装置、设备及存储介质_北京值得买科技股份有限公司_202111225827.9

基于网络爬虫方式的智能评估方法_中国农业科学院农业环境与可持续发展研究所_202310463992.0

一种支持断点任务重启的分布式爬虫系统_天翼云科技有限公司_202311639741.X

爬虫调度管理平台通信方法和爬虫调度管理平台系统_广州探途网络技术有限公司_202011302154.8

防爬虫处理方法、装置及电子设备、存储介质_中国邮政储蓄银行股份有限公司_202311605040.4

一种分布式爬虫动态更新系统及方法_中国电子科技集团公司第三十研究所_202311808702.8

一种多线程网络爬虫调度管理方法及系统_深圳市豪斯莱科技有限公司_202410218377.8

一种基于机器学习的社区爬虫行为识别方法及系统_北京无忧创想信息技术有限公司_202410075661.4

一种基于微服务的自动爬虫管理方法_北京星汉博纳医药科技有限公司_202110096651.5

检测相关技术

阻抗检测电路、阻抗检测设备及阻抗检测方法_深圳市瀚强科技股份有限公司_202410021543.5

锅炉烟气检测装置及检测方法_广东信科检测有限公司_202210425377.6

用于检测洗涤设备进水异常的检测系统及检测方法_青岛海尔洗衣机有限公司_202211285180.3

一种线材视觉检测系统及检测方法_深圳市汇众智慧科技有限公司_202410076687.0

显示面板的检测系统及检测方法_苏州华星光电技术有限公司_202111547153.4

旋转故障检测装置和进出故障检测装置_英特尔NDTM美国有限公司_202322643977.2

建筑主体结构检测装置及检测方法_山东中程试验检测有限公司_202410108008.3

火焰检测供电电路、火焰检测装置及点火设备_珠海格力电器股份有限公司_202311639715.7

光检测设备及光检测设备的测试方法_深圳麦科田生物医疗技术股份有限公司_201910704569.9

新异检测器_爱思开海力士有限公司_202011622881.2

龙图腾网&IPTOP

【发明授权】基于无障碍检测结果去重的爬虫搜索方法_浙江大学_202110849849.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务