买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于强化学习的自适应网页结构变化的数据采集方法及系统_安徽大学_202410057127.0 

申请/专利权人:安徽大学

申请日:2024-01-15

公开(公告)日:2024-04-12

公开(公告)号:CN117874318A

主分类号:G06F16/951

分类号:G06F16/951;G06F9/455;G06N3/045;G06N3/092;G06N3/09

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明涉及数据爬取技术领域,更具体的,涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明预先构建了两个Docker容器,其中一个安装了浏览器程序、爬虫程序、守护进程,另一个用于存放及更新Actor‑Critic模型;本发明基于强化学习的方式对Actor‑Critic模型进行训练,使Actor‑Critic模型可以适应于目标网页的结构变化,自动学习到新的爬取流程,减少去修改爬虫程序代码的人力成本。本发明解决了现有的数据采集不能够自适应网页结构变化的问题。

主权项:1.一种基于强化学习的自适应网页结构变化的数据采集方法,其用于对目标网页完成设定的爬取任务,其特征在于,其包括以下步骤:步骤一,构建Docker容器G、Docker容器R;其中,Docker容器G用于安装浏览器程序、爬虫程序、守护进程;所述浏览器程序用于加载目标网页;所述爬虫程序用于控制浏览器程序执行Docker容器R发送来的动作;所述守护进程用于获取目标网页的状态、并计算执行动作后的即时奖励;Docker容器R用于存放及更新Actor-Critic模型A-C;A-C包括:策略网络部A、价值网络部C;Docker容器R内的模型依据守护进程发送来的状态、即时奖励,计算出动作、并更新模型参数;步骤二,对Docker容器R内的模型进行N轮正式训练,通过强化学习的方式更新A、C的参数,直至爬虫程序正确地完成设定的爬取任务;其中,第n轮正式训练的最大步数为T;n∈[1,N];第n轮正式训练中第t步的训练方法包括:步骤3.1,依据状态St计算出第t步所要执行的动作At;其中,包括表示第n轮正式训练中第t-1步训练得到的Actor-Critic模型;表示中的策略网络部,表示中的价值网络部;t∈[1,T-1];步骤3.2,爬虫程序先控制浏览器程序执行At,然后控制浏览器程序对目标网页进行截图、并得到状态St+1;步骤3.3,守护进程获取St+1,并计算At的即时奖励Rt;步骤3.4,依据Rt更新的参数,形成依据St+1计算出第t+1步所要执行的动作At+1。

全文数据:

权利要求:

百度查询: 安徽大学 基于强化学习的自适应网页结构变化的数据采集方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。