买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于机器学习的网页采集页面的正文页采集方法_墨责(北京)科技传播有限公司_202211314510.7 

申请/专利权人:墨责(北京)科技传播有限公司

申请日:2022-10-26

公开(公告)日:2023-01-06

公开(公告)号:CN115374334B

主分类号:G06F16/951

分类号:G06F16/951;G06F16/958;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2023.01.06#授权;2022.12.09#实质审查的生效;2022.11.22#公开

摘要:本发明涉及一种基于机器学习的网页采集页面的正文页采集方法,包括:建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;对通过爬虫采集到的页面数据,进行预处理和页面特征数据提取得到页面特征数据;将页面特征数据输入训练后的正文页判别模型进行正文页检测;对检测为正文页的页面,提取出页面内的正文数据存储到采集库中;对检测为列表页的页面,提取其中的链接地址并加入到爬虫的采集队列中,用于关联正文页的采集。本发明大大降低网站采集配置难度和网站改版风险,减轻网站采集的工作量。

主权项:1.一种基于机器学习的网页采集页面的正文页采集方法,其特征在于,包括以下步骤:步骤S1、建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;步骤S2、对通过爬虫采集到的页面数据,进行预处理和页面特征数据提取得到页面特征数据;将页面特征数据输入训练后的正文页判别模型进行正文页检测;步骤S3、对检测为正文页的页面,提取出页面内的正文数据存储到采集库中;对检测为列表页的页面,提取其中的链接地址并加入到爬虫的采集队列中,用于关联正文页的采集;步骤S1中的训练过程包括:步骤S101、对训练集中的正样本数据行预处理清洗,去除干扰因子;所述正样本数据为标记为正文的网页样本数据;步骤S102、提取预处理后的正样本数据的特征数据;步骤S103、利用提取的特征数据训练分类器得到训练后的正文页判别模型;步骤S104、采用负样本对训练后的正文页判别模型进行验证;所述负样本为标记为非正文的网页样本数据;在提取预处理后的正样本数据的特征数据过程中,包括:将预处理后的正样本数据生成DOM树;递归遍历整个DOM树提取包括标签特征和文本特征在内的网页特征;对提取的网页特征进行统计得到预处理后的正样本数据的特征数据;提取的网页特征包括标签a链接特征、段落p标签特征、以及a、p标签中内容的文本特征和标点符号特征;对提取的网页特征进行统计得到预处理后的正样本数据的特征数据为十二维特征;具体包括:特征一,通过统计所有标签中的文字字符数量,得到总字符数量特征;特征二,通过统计所有标签数量,得到总标签数量特征;特征三,通过统计标签a的总数量,得到标签A的数量特征;特征四,通过统计标签p的总数量,得到标签P的数量特征;特征五,通过统计标签a中的所有文字字符数量,得到链接中的字符数量特征;特征六,通过计算标签a字符总数量标签a数量,得到链接中字符数量占比特征;特征七,通过统计标签p中的所有文字字符数量,得到标签P中字符数量特征;特征八,通过计算标签p字符总量标签p数量,得到标签P中字符数量占比特征;特征九,通过计算总字符数量-标签a字符数量(总标签数量-标签A的数量),得到文本密度特征;特征十,通过基于正则计算文本中常用标点符号数量,得到标点符号数量特征;特征十一,通过计算标点符号数量标签数量,得到标点符号密度特征;特征十二,通过计算文本密度的最大值,得到最大文本密度特征。

全文数据:

权利要求:

百度查询: 墨责(北京)科技传播有限公司 基于机器学习的网页采集页面的正文页采集方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。