买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于爬虫的社交网络数据采集系统_武汉威克睿特科技有限公司_202311774815.0 

申请/专利权人:武汉威克睿特科技有限公司

申请日:2023-12-22

公开(公告)日:2024-03-19

公开(公告)号:CN117725284A

主分类号:G06F16/951

分类号:G06F16/951;H04L43/0852

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本发明属于数据处理领域,公开了一种基于爬虫的社交网络数据采集系统,包括爬取间隔计算模块、爬取模块和存储模块;爬取间隔计算模块用于计算爬取间隔;爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取,得到网页数据;存储模块用于对网页数据进行存储;爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元;参数更新单元用于获取网络延迟;网页数据分析单元用于基于预设时间段内爬取所得到的网页数据获取用户发布信息的发布时间的集合和发布的信息所占用的空间的集合;计算单元用于计算爬取间隔。本发明能够在及时获取目标用户在社交网络中发布的信息的同时,避免过于密集地对目标用户发布信息的主页进行数据爬取。

主权项:1.一种基于爬虫的社交网络数据采集系统,其特征在于,包括爬取间隔计算模块、爬取模块和存储模块;爬取间隔计算模块用于计算爬取间隔;爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取,得到网页数据;存储模块用于对网页数据进行存储;其中,爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元;参数更新单元用于在计算爬取间隔时,对目标用户的主页进行访问,获得网络延迟;网页数据分析单元用于在计算爬取间隔时,对预设时间段内爬取所得到的网页数据进行分析,得到用户发布信息的发布时间的集合和发布的信息所占用的空间的集合;计算单元用于采用如下公式计算爬取间隔: crawitrq+1和crawitrq分别表示第q+1次和第q次计算爬取间隔时得到的爬取间隔;latq+1和latq分别表示第q+1次和第q次计算爬取间隔时所得到的网络延迟;获取预设时间段内每次爬取所得到的网页数据的发布时间,将发布时间从早到晚进行排序,得到集合timeU;reltimq+1,1和reltimq+1,2分别表示第一时间长度和第二时间长度;reltimq+1,1=actimK-actimK-1,reltimq+1,2=actimK-1-actimK-2;K表示timeU中的发布时间的总数,actimK、actimK-1和actimK-2分别表示timeU中的第K个、第K-1个和第K-2个发布时间;spaq+1,1和spaq+1,2分别表示发布时间为actimK和actimK-1的网页数据的大小,w1、w2和w3分别表示网络延迟的权重、时间长度的权重和数据大小的权重。

全文数据:

权利要求:

百度查询: 武汉威克睿特科技有限公司 一种基于爬虫的社交网络数据采集系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。