买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种爬虫数据的识别方法、系统及设备_网宿科技股份有限公司_202010112134.8 

申请/专利权人:网宿科技股份有限公司

申请日:2020-02-24

公开(公告)日:2024-03-26

公开(公告)号:CN111368163B

主分类号:G06F16/951

分类号:G06F16/951;G06F16/955;G06F16/958

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2020.07.28#实质审查的生效;2020.07.03#公开

摘要:本发明公开了一种爬虫数据的识别方法、系统及设备,其中,所述方法包括:获取目标网站的站点地图数据,并生成所述站点地图数据的向量图;获取所述目标网站的会话数据,并基于所述会话数据中包含的请求,将所述会话数据映射为所述向量图中的子图;为所述会话数据添加会话标签,所述会话标签用于表征所述会话数据是否为爬虫数据,并基于所述会话标签和所述子图对预设分类器进行训练,以得到用于区分爬虫数据和非爬虫数据的分类器。本申请提供的技术方案,能够有效地识别出爬虫数据。

主权项:1.一种爬虫数据的识别方法,其特征在于,所述方法包括:获取目标网站的站点地图数据,并生成所述站点地图数据的向量图,包括:识别所述站点地图数据中包含的各个访问链接,并基于各个所述访问链接之间的跳转关系,确定各个所述访问链接对应的节点位置;将包含各个所述节点位置的图像作为所述站点地图数据的向量图;获取所述目标网站的会话数据,并基于所述会话数据中包含的请求,将所述会话数据映射为所述向量图中的子图;为所述会话数据添加会话标签,所述会话标签用于表征所述会话数据是否为爬虫数据,并基于所述会话标签和所述子图对预设分类器进行训练,以得到用于区分爬虫数据和非爬虫数据的分类器。

全文数据:

权利要求:

百度查询: 网宿科技股份有限公司 一种爬虫数据的识别方法、系统及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。