申请/专利权人:戎行技术有限公司
申请日:2022-03-03
公开(公告)日:2024-03-22
公开(公告)号:CN114710318B
主分类号:H04L9/40
分类号:H04L9/40;G06F16/951;G06N3/0464;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.03.22#授权;2022.07.22#实质审查的生效;2022.07.05#公开
摘要:本申请公开了一种限制爬虫高频访问的方法、装置、设备及介质,用以解决现有的网络爬虫无休止的访问服务器,导致正常用户的网络请求异常的技术问题。方法包括:获取用户的访问请求并确定对应的IP地址及历史访问轨迹序列;解析历史访问轨迹序列得到历史访问信息;将IP地址及IP地址在预设时长内对目标页面的访问时间间隔、累计访问次数以及单次访问时长输入至预先训练的学习模型,输出IP地址对应的身份信息及身份信息对应的置信度;获取IP地址在历史访问轨迹序列中访问目标页面对应的能耗及服务器处理访问请求的能耗以确定IP地址对应目标身份信息;在IP地址对应的目标身份信息为爬虫用户信息时将IP地址添加至Nginx屏蔽文件以限制IP地址进行访问。
主权项:1.一种限制爬虫高频访问的方法,其特征在于,所述方法包括:获取用户的访问请求,并根据所述访问请求确定所述用户对应的IP地址,以及所述IP地址对应的历史访问轨迹序列;解析所述历史访问轨迹序列,以得到所述IP地址在预设时长内的历史访问信息,所述历史访问信息中至少包括以下一项:对目标页面的访问时间间隔、累计访问次数以及单次访问时长;将所述IP地址以及所述IP地址在预设时长内对目标页面的访问时间间隔、累计访问次数以及单次访问时长,输入至预先训练的学习模型,并输出所述IP地址对应的身份信息以及所述身份信息对应的置信度,所述身份信息包括爬虫用户信息和正常用户信息;在所述置信度不超过预设置信度阈值的情况下,获取所述IP地址在所述历史访问轨迹序列中访问目标页面对应的能耗,以及所述目标页面对应的服务器处理所述访问请求的能耗;根据所述IP地址访问目标页面对应的能耗与所述服务器处理所述访问请求对应的能耗之间的大小关系,确定所述IP地址对应的目标身份信息;在所述IP地址对应的目标身份信息为爬虫用户信息时,将所述IP地址添加至Nginx屏蔽文件中,以限制所述IP地址进行访问。
全文数据:
权利要求:
百度查询: 戎行技术有限公司 一种限制爬虫高频访问的方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。