【发明公布】基于强化学习的自适应网页结构变化的数据采集方法及系统_安徽大学_202410057127.0

导航：龙图腾网> 最新专利技术> 基于强化学习的自适应网页结构变化的数据采集方法及系统_安徽大学_202410057127.0

申请/专利权人：安徽大学

申请日：2024-01-15

公开（公告）日：2024-04-12

公开（公告）号：CN117874318A

主分类号：G06F16/951

分类号：G06F16/951;G06F9/455;G06N3/045;G06N3/092;G06N3/09

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.30#实质审查的生效;2024.04.12#公开

摘要：本发明涉及数据爬取技术领域，更具体的，涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明预先构建了两个Docker容器，其中一个安装了浏览器程序、爬虫程序、守护进程，另一个用于存放及更新Actor‑Critic模型；本发明基于强化学习的方式对Actor‑Critic模型进行训练，使Actor‑Critic模型可以适应于目标网页的结构变化，自动学习到新的爬取流程，减少去修改爬虫程序代码的人力成本。本发明解决了现有的数据采集不能够自适应网页结构变化的问题。

主权项：1.一种基于强化学习的自适应网页结构变化的数据采集方法，其用于对目标网页完成设定的爬取任务，其特征在于，其包括以下步骤：步骤一，构建Docker容器G、Docker容器R；其中，Docker容器G用于安装浏览器程序、爬虫程序、守护进程；所述浏览器程序用于加载目标网页；所述爬虫程序用于控制浏览器程序执行Docker容器R发送来的动作；所述守护进程用于获取目标网页的状态、并计算执行动作后的即时奖励；Docker容器R用于存放及更新Actor-Critic模型A-C；A-C包括：策略网络部A、价值网络部C；Docker容器R内的模型依据守护进程发送来的状态、即时奖励，计算出动作、并更新模型参数；步骤二，对Docker容器R内的模型进行N轮正式训练，通过强化学习的方式更新A、C的参数，直至爬虫程序正确地完成设定的爬取任务；其中，第n轮正式训练的最大步数为T；n∈[1,N]；第n轮正式训练中第t步的训练方法包括：步骤3.1，依据状态St计算出第t步所要执行的动作At；其中，包括表示第n轮正式训练中第t-1步训练得到的Actor-Critic模型；表示中的策略网络部，表示中的价值网络部；t∈[1,T-1]；步骤3.2，爬虫程序先控制浏览器程序执行At，然后控制浏览器程序对目标网页进行截图、并得到状态St+1；步骤3.3，守护进程获取St+1，并计算At的即时奖励Rt；步骤3.4，依据Rt更新的参数，形成依据St+1计算出第t+1步所要执行的动作At+1。

全文数据：

权利要求：

百度查询：安徽大学基于强化学习的自适应网页结构变化的数据采集方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

下一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

相关技术

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

龙图腾网&IPTOP

【发明公布】基于强化学习的自适应网页结构变化的数据采集方法及系统_安徽大学_202410057127.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务