申请/专利权人:深圳赛安特技术服务有限公司
申请日:2021-04-21
公开(公告)日:2024-04-02
公开(公告)号:CN113065055B
主分类号:G06F16/953
分类号:G06F16/953;G06F16/955
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2021.10.29#专利申请权的转移;2021.10.12#实质审查的生效;2021.07.02#公开
摘要:本发明涉及大数据技术领域,提供一种新闻资讯抓取方法、装置、电子设备及存储介质,所述方法包括:获取多个种子URL生成目标新闻资讯抓取树;启动主线程读取目标新闻资讯抓取树中每个抓取节点的目标种子URL及对应的抓取策略;在读取了预设数量的目标种子URL时,启动多个子线程,将预设数量的目标种子URL分给多个子线程;控制每个子线程使用Puppeteer打开每个目标种子URL进行抓取处理;通过主线程对多个子线程的抓取结果进行统计得到目标新闻资讯的目标抓取结果。本发明通过使用Puppeteer启动无头浏览器打开每个目标种子URL,并启动多个子线程进行抓取处理,减少了真实浏览器的渲染工作,提高了目标新闻资讯的抓取效率。
主权项:1.一种新闻资讯抓取方法,其特征在于,所述方法包括:解析接收到的目标新闻资讯的抓取请求获取多个种子URL;为每个所述种子URL创建抓取策略,并根据所述多个种子URL生成目标新闻资讯抓取树,其中,所述目标新闻资讯抓取树的每个抓取节点中包含有对应的抓取策略;启动主线程逐个读取所述目标新闻资讯抓取树中的每个抓取节点的目标种子URL及对应的抓取策略;当侦测到所述主线程读取了预设数量的目标种子URL时,启动多个子线程,并将所述主线程读取的所述预设数量的目标种子URL按照预设的分配规则分给所述多个子线程;控制每个所述子线程使用Puppeteer打开所述主线程读取的每个目标种子URL,并进行抓取处理;当侦测到所述多个子线程完成抓取处理后,通过所述主线程对所述多个子线程的抓取结果进行统计得到所述目标新闻资讯的目标抓取结果。
全文数据:
权利要求:
百度查询: 深圳赛安特技术服务有限公司 新闻资讯抓取方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。