买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于无障碍检测结果去重的爬虫搜索方法_浙江大学_202110849849.6 

申请/专利权人:浙江大学

申请日:2021-07-27

公开(公告)日:2024-03-22

公开(公告)号:CN113779377B

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/951;G06F16/955;G06F18/2321

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:一种基于无障碍检测结果去重的爬虫搜索方法,预先设置好需要爬取的页面总数,循环地从URL队列中获取链接,访问链接获取网页源代码;再对网页源代码中选取的规则子集进行检测,将检测结果合并成特征矩阵;当从一个网页中提取的所有链接都被访问完毕后,对所有链接到的页面获取的矩阵运用DBSCAN算法进行聚类;对聚类后每一簇的结果进行随机抽样作为这一簇的代表页面,从中抽取链接加入URL队列,一簇中其他的网页由于无障碍检测结果和代表页面相似,因此其中的子链接都被标记为“跳过”,并不实际爬取页面而是直接增加爬取页面的计数;本发明用于网站页面用户友好程度自动化检测中的网页链接爬取阶段,通过控制爬取页面数量加快爬取进度,加快检测效率。

主权项:1.一种基于无障碍检测结果去重的爬虫搜索方法,包括以下步骤:S1从用户输入中获取网站首页的链接和需要获取的网页总数totalCount;将网站首页的链接加入URL队列;S2从待爬取URL队列队首获取一个链接,访问链接获取网页源代码;已访问的链接数finishCount的值加上1;S3如果已经访问的链接数finishCount和被标记为跳过的链接数skipCount符合条件finishCount+skipCount≥totalCount,流程结束,否则继续向下执行;S4对网页源代码提取无障碍检测项矩阵;S41从《GBT37668-2019信息技术互联网内容无障碍可访问性技术要求与测试方法》中选择一个规则子集;选择的规则符合如下标准:1.实现简单,仅依赖网页源代码,而不涉及图像、视频或音频信息;2.检测速度快,所有规则在单个网页的总耗时不超过1秒;按照上述标准,从国标中选择了7条无障碍可访问性规则,规则名称分别是:非文本链接、非文本控件、非文本内容、用户联络反馈、实时用户联络反馈、一致的导航、站内搜索和网站地图;S42对网页源代码应用步骤S41选取的规则进行检测,对于一条规则,检测后获得的结果形式为r=[Ns,Np,Nf,Ni]的向量,其中Ns为检测点的数量,Np为检测点中结果为通过的数量,Nf为检测点中结果为不通过的数量,Ni为检测点中结果为未知的数量;S43将步骤S42获得的检测规则对应的向量按照固定的顺序拼接成矩阵,规则的顺序是固定的,可以按照规则的编号大小进行排序;获得的矩阵格式为M=[r1,r2,r3...rn],其中ri为第i条规则对应的向量;S5当链接A是从链接B对应的网页源代码中提取的时,称B是A的父链接,A是B的子链接;找到当前访问链接的父链接,如果父链接的所有子链接还没有全部被访问,返回步骤S2继续执行;否则,将得到一个由步骤S4获得的矩阵的集合C={M1,M2,M3...Mn},其中Mi为第i个子链接对应网页源代码的无障碍检测项矩阵;对集合使用基于密度聚类的DBSCAN方法进行聚类分析,将集合C划分成多个簇;S6对于步骤S5划分的每一个簇,按照比例λ进行抽样,将抽样结果放入集合R={H1,H2,H3...Hm},剩余的结果放入T={Hm+1...Hn};集合其中Hi为第i个无障碍检测项矩阵对应的原始网页源代码;S7对于步骤S6获取的集合R,从每一个元素中抽取链接加入到URL队列中;对于步骤S6获取的集合T,从每一个元素中抽取链接,将所有的链接加入集合P={U1,U2,U3...Un},其中Ui为第i个链接;集合P中的链接是根据无障碍检测结果被去重的链接,被标记为跳过,将跳过的链接数skipCount加上集合P中元素的数量CardP;S8如果finishCount+skipCount≥totalCount,已经获取了足够的网页,流程结束,否则重复执行步骤S2。

全文数据:

权利要求:

百度查询: 浙江大学 基于无障碍检测结果去重的爬虫搜索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。