买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于机器学习的面向地图切片服务的爬虫行为检测方法_长光卫星技术股份有限公司_202311688825.2 

申请/专利权人:长光卫星技术股份有限公司

申请日:2023-12-11

公开(公告)日:2024-03-08

公开(公告)号:CN117668338A

主分类号:G06F16/951

分类号:G06F16/951;G06F16/29;G06F18/2433;G06F18/214;G06F18/213;G06N20/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.26#实质审查的生效;2024.03.08#公开

摘要:本发明提出一种基于机器学习的面向地图切片服务的爬虫行为检测方法。所述方法从面向地图切片服务的爬虫的机理角度出发,通过特征工程的方法对用户请求流量数据的内容信息进行深度挖掘,以对爬虫行为进行充分的描述;同时利用LightGBM框架建立机器学习模型,对流量数据挖掘得到的特征进行高效的拟合分析,最终实现对面向地图切片服务的爬虫行为的精准识别。

主权项:1.一种基于机器学习的面向地图切片服务的爬虫行为检测方法,其特征在于,所述方法包括以下步骤:步骤1:获取流量数据:本步骤包括通过分布式消息队列、文件系统或数据库所获得的流量日志;每条流量数据包含以下字段:用户id,请求时间时间戳,请求来源ip信息,浏览器信息,地图切片矩阵名,地图缩放层级,地图切片行号和地图切片列号;步骤2:用户浏览会话分割:将步骤1获取的流量数据分割成多段数据流,每段数据流代表了一个用户在一段连续时间的操作行为产生的流量数据;步骤3:用户地图浏览轨迹行为复现:对会话分割后的数据流进行解析和计算,最终得到用户在整段会话过程中的地图浏览轨迹,最终以热力图的形式进行可视化展示;步骤4:异常行为训练样本构建:如果用户某段会话的浏览轨迹可视化展示结果排列整齐密集,形成范围及区域大的且十分规则的矩形框,则该区域即为异常数据爬取行为,否则为正常用户;通过人工选取部分用户的会话行为浏览轨迹进行人工标注,得到异常行为训练样本数据集;步骤5:用户行为特征抽取:所述特征包括流量数据全局特征,流量速度统计特征,操作行为频率分布,流量请求时间统计特征,用户浏览行为时间统计特征,用户浏览轨迹的区域性特征,流量数据信息度衡量,流量数据缩放区间级数分布共8种类别特征;步骤6:异常行为检测模型训练;步骤7:异常用户识别及信息归档。

全文数据:

权利要求:

百度查询: 长光卫星技术股份有限公司 一种基于机器学习的面向地图切片服务的爬虫行为检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。