申请/专利权人:网宿科技股份有限公司
申请日:2020-02-24
公开(公告)日:2024-03-26
公开(公告)号:CN111368163B
主分类号:G06F16/951
分类号:G06F16/951;G06F16/955;G06F16/958
优先权:
专利状态码:有效-授权
法律状态:2024.03.26#授权;2020.07.28#实质审查的生效;2020.07.03#公开
摘要:本发明公开了一种爬虫数据的识别方法、系统及设备,其中,所述方法包括:获取目标网站的站点地图数据,并生成所述站点地图数据的向量图;获取所述目标网站的会话数据,并基于所述会话数据中包含的请求,将所述会话数据映射为所述向量图中的子图;为所述会话数据添加会话标签,所述会话标签用于表征所述会话数据是否为爬虫数据,并基于所述会话标签和所述子图对预设分类器进行训练,以得到用于区分爬虫数据和非爬虫数据的分类器。本申请提供的技术方案,能够有效地识别出爬虫数据。
主权项:1.一种爬虫数据的识别方法,其特征在于,所述方法包括:获取目标网站的站点地图数据,并生成所述站点地图数据的向量图,包括:识别所述站点地图数据中包含的各个访问链接,并基于各个所述访问链接之间的跳转关系,确定各个所述访问链接对应的节点位置;将包含各个所述节点位置的图像作为所述站点地图数据的向量图;获取所述目标网站的会话数据,并基于所述会话数据中包含的请求,将所述会话数据映射为所述向量图中的子图;为所述会话数据添加会话标签,所述会话标签用于表征所述会话数据是否为爬虫数据,并基于所述会话标签和所述子图对预设分类器进行训练,以得到用于区分爬虫数据和非爬虫数据的分类器。
全文数据:
权利要求:
百度查询: 网宿科技股份有限公司 一种爬虫数据的识别方法、系统及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。