买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于机器学习的社区爬虫行为识别方法及系统_北京无忧创想信息技术有限公司_202410075661.4 

申请/专利权人:北京无忧创想信息技术有限公司

申请日:2024-01-18

公开(公告)日:2024-03-26

公开(公告)号:CN117596081B

主分类号:H04L9/40

分类号:H04L9/40;G06F16/951;G06F40/30;G06F16/35;G06F18/2433;G06F18/214;G06F18/21;G06N3/0442;G06N3/0455;G06N3/088;G06N3/09;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要:本发明公开了一种基于机器学习的社区爬虫行为识别方法,包括:收集日志数据和用户生成内容数据,并对收集到的日志数据和用户生成内容数据进行预处理,以生成各特征数据,通过相关性分析方法确定出各特征数据之间的关联关系;创建序列数据;基于所述各特征数据之间的关联关系和创建出的序列数据,进行数据标注处理;基于训练集,通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型,并基于所述爬虫行为识别模型自动识别出爬虫数据。本申请能够对复杂多变的爬虫行为进行高效、精确的识别,提高了网络安全防护水平,保护了社区网站的内容安全、用户隐私及正常运行,并有助于防止恶意攻击行为。

主权项:1.一种基于机器学习的社区爬虫行为识别方法,其特征在于,包括:收集日志数据和用户生成内容数据,并对收集到的日志数据和用户生成内容数据进行预处理,以生成各特征数据,所述日志数据包括访问日志数据、错误日志数据和安全日志数据,所述用户生成内容数据至少包括文章标题、内容文章、发布时间和或文章标签;通过相关性分析方法确定出各特征数据之间的关联关系,所述各特征数据之间的关联关系包括与爬虫行为相关联的特征数据,以及与用户发帖行为相关联的特征数据;创建序列数据,所述序列数据包括访问序列数据和内容序列数据,所述访问序列数据为收集到的日志数据在时间上的排序,所述内容序列数据为用户生成内容在时间上的排序,所述内容序列数据用于捕获用户的发帖数据随时间的变化情况;基于所述各特征数据之间的关联关系和创建出的序列数据,进行数据标注处理,所述数据标注处理为对与爬虫行为相关联的特征数据进行第一数据标记,以及对识别出的与用户发帖行为相关联的特征数据进行第二数据标记,对进行标记的第一数据和第二数据生成数据集,并将所述数据集按照预设比例分为训练集和测试集,所述训练集和测试集中的数据均包括访问序列数据和内容序列数据;基于所述训练集,通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型,并基于所述爬虫行为识别模型自动识别出爬虫数据,包括:基于所述训练集中的访问序列数据,构建自编码器神经网络模型,所述自编码器神经网络模型包括输入层、编码层和解码层,所述输入层的节点数对应访问序列数据的特征维度,编码层将访问序列数据压缩为低维向量,所述解码层将压缩为低维向量的访问序列数据进行结构化处理;采用循环神经网络作为编码器,学习提取进行结构化处理后访问序列数据之间的长期依赖关系;预训练所述编码器;基于预训练后的编码器,使用标签数据Fine-tune网络,调整参数以识别爬虫数据;其中,所述测试集用于对所述爬虫行为识别模型进行优化调整;所述方法还包括:构建循环神经网络模型;将训练集中的内容序列数据转换为词向量序列;基于所述词向量序列,通过构建的循环神经网络模型,调整参数以识别爬虫数据。

全文数据:

权利要求:

百度查询: 北京无忧创想信息技术有限公司 一种基于机器学习的社区爬虫行为识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。