【发明公布】基于机器学习的网页采集页面的正文页采集方法_墨责(北京)科技传播有限公司_202211314510.7

申请/专利权人：墨责(北京)科技传播有限公司

申请日：2022-10-26

公开（公告）日：2022-11-22

公开（公告）号：CN115374334A

主分类号：G06F16/951

分类号：G06F16/951;G06F16/958;G06K9/62;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2023.01.06#授权;2022.12.09#实质审查的生效;2022.11.22#公开

摘要：本发明涉及一种基于机器学习的网页采集页面的正文页采集方法，包括：建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集。本发明大大降低网站采集配置难度和网站改版风险，减轻网站采集的工作量。

主权项：1.一种基于机器学习的网页采集页面的正文页采集方法，其特征在于，包括以下步骤：步骤S1、建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；步骤S2、对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；步骤S3、对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集。

全文数据：

权利要求：

百度查询：墨责(北京)科技传播有限公司基于机器学习的网页采集页面的正文页采集方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：负极极片及其制备方法、锂离子电池_碳一新能源(杭州)有限责任公司_202410186166.0

下一篇：一种用于终端设备的距离调整方法、装置、设备及介质_抖音视界有限公司_202211394442.X

相关技术

负极极片及其制备方法、锂离子电池_碳一新能源(杭州)有限责任公司_202410186166.0

一种用于终端设备的距离调整方法、装置、设备及介质_抖音视界有限公司_202211394442.X

游戏交互方法、装置、计算机设备及计算机可读存储介质_网易(杭州)网络有限公司_202410269681.5

取代的吡啶并嘧啶酮类化合物及包含该化合物的组合物及其用途_深圳市塔吉瑞生物医药有限公司_202310418144.8

一种机车车辆及动车组故障精准诊断方法和系统_中车大连机车车辆有限公司_202410309149.1

服务器开关机状态指示装置及方法_深圳市前海研祥亚太电子装备技术有限公司_202410198079.7

一种有序充电控制方法、系统、设备及程序产品_中科聚(北京)能源科技有限公司_202410250137.6

一种平面运动台_无锡星微科技有限公司杭州分公司_202410417754.0

一种摆头皮带机_唐山胜利机械制造有限公司_202410274405.8

自支撑电极及其制备方法和钠离子电池_宁波容百新能源科技股份有限公司_202410420040.5

复合信息化集装箱区多功能辅助系统和方法_布勒(无锡)商业有限公司_202410215960.3

一种基于预制脉冲反馈的发射波形修正方法及系统_四川九洲电器集团有限责任公司_202410419871.0

龙图腾网&IPTOP

【发明公布】基于机器学习的网页采集页面的正文页采集方法_墨责(北京)科技传播有限公司_202211314510.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务