买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于云平台的网站信息采集系统_上海慧洲信息技术有限公司_202110491388.X 

申请/专利权人:上海慧洲信息技术有限公司

申请日:2021-05-06

公开(公告)日:2024-04-16

公开(公告)号:CN113190737B

主分类号:G06F16/951

分类号:G06F16/951;G06F21/31;G06F21/45;G06V40/16;G06V10/44;G06V10/56;G06T5/70;G06T7/12;G06T7/136;G06T7/194;G06T7/90

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.08.17#实质审查的生效;2021.07.30#公开

摘要:本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,对云计算存储服务器中存储的网站数据进行管理。本发明通过代理服务器来对目标网站进行网站信息的获取,实现对所述网站中的数据的下载。用于实现任务管理模块的客户端并不会受到网站的反爬虫机制的影响,能够灵活地使用不同的代理服务器进行网站信息的采集,有效地提高了网站信息采集的成功率。

主权项:1.一种基于云平台的网站信息采集系统,其特征在于,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理;所述任务管理模块包括权限控制单元和任务管理单元;所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务;所述任务管理模块包括拍摄单元、图像处理单元和权限判断单元;所述拍摄单元用于获取所述人员的脸部图像;所述图像处理单元用于对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息;所述权限判断单元用于将所述图像处理单元获取的特征信息与任务管理模块中预存的所有具有使用所述任务管理单元的权限的人员的脸部图像的特征信息进行匹配,若匹配成功,则判定所述人员具有使用所述任务管理单元的权限;若匹配失败,则判定所述人员不具有使用所述任务管理单元的权限;所述对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息,包括:对所述脸部图像进行灰度化处理,获得灰度化图像;对所述脸部图像进行差异度计算,获得差异图像;对所述灰度化图像进行边缘检测,获得边缘图像;对所述灰度化图像进行降噪处理,获得降噪图像;对所述降噪图像进行图像分割处理,获取前景图像;基于所述差异图像、所述前景图像和所述边缘图像生成目标图像;采用预设的特征信息采集算法获取所述目标图像中包含的特征信息。

全文数据:

权利要求:

百度查询: 上海慧洲信息技术有限公司 一种基于云平台的网站信息采集系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。