【发明授权】基于机器学习的网页采集页面的正文页采集方法_墨责(北京)科技传播有限公司_202211314510.7

申请/专利权人：墨责(北京)科技传播有限公司

申请日：2022-10-26

公开（公告）日：2023-01-06

公开（公告）号：CN115374334B

主分类号：G06F16/951

分类号：G06F16/951;G06F16/958;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2023.01.06#授权;2022.12.09#实质审查的生效;2022.11.22#公开

摘要：本发明涉及一种基于机器学习的网页采集页面的正文页采集方法，包括：建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集。本发明大大降低网站采集配置难度和网站改版风险，减轻网站采集的工作量。

主权项：1.一种基于机器学习的网页采集页面的正文页采集方法，其特征在于，包括以下步骤：步骤S1、建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；步骤S2、对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；步骤S3、对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集；步骤S1中的训练过程包括：步骤S101、对训练集中的正样本数据行预处理清洗，去除干扰因子；所述正样本数据为标记为正文的网页样本数据；步骤S102、提取预处理后的正样本数据的特征数据；步骤S103、利用提取的特征数据训练分类器得到训练后的正文页判别模型；步骤S104、采用负样本对训练后的正文页判别模型进行验证；所述负样本为标记为非正文的网页样本数据；在提取预处理后的正样本数据的特征数据过程中，包括：将预处理后的正样本数据生成DOM树；递归遍历整个DOM树提取包括标签特征和文本特征在内的网页特征；对提取的网页特征进行统计得到预处理后的正样本数据的特征数据；提取的网页特征包括标签a链接特征、段落p标签特征、以及a、p标签中内容的文本特征和标点符号特征；对提取的网页特征进行统计得到预处理后的正样本数据的特征数据为十二维特征；具体包括：特征一，通过统计所有标签中的文字字符数量，得到总字符数量特征；特征二，通过统计所有标签数量，得到总标签数量特征；特征三，通过统计标签a的总数量，得到标签A的数量特征；特征四，通过统计标签p的总数量，得到标签P的数量特征；特征五，通过统计标签a中的所有文字字符数量，得到链接中的字符数量特征；特征六，通过计算标签a字符总数量标签a数量，得到链接中字符数量占比特征；特征七，通过统计标签p中的所有文字字符数量，得到标签P中字符数量特征；特征八，通过计算标签p字符总量标签p数量，得到标签P中字符数量占比特征；特征九，通过计算总字符数量-标签a字符数量（总标签数量-标签A的数量），得到文本密度特征；特征十，通过基于正则计算文本中常用标点符号数量，得到标点符号数量特征；特征十一，通过计算标点符号数量标签数量，得到标点符号密度特征；特征十二，通过计算文本密度的最大值，得到最大文本密度特征。

全文数据：

权利要求：

百度查询：墨责(北京)科技传播有限公司基于机器学习的网页采集页面的正文页采集方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种轴配流数字化摆线液压马达_山东瑞诺液压机械有限公司_202311771655.4

下一篇：一种水电机组发电机转子磁极铁芯压装装置_段红丽_202310136813.2

相关技术

一种轴配流数字化摆线液压马达_山东瑞诺液压机械有限公司_202311771655.4

一种水电机组发电机转子磁极铁芯压装装置_段红丽_202310136813.2

一种用于测量斜视合并屈光不正患者的三棱镜装置及方法_深圳爱尔眼科医院_202311604419.3

散热器和车辆_比亚迪股份有限公司_202211214231.3

一种微服务调度方法、装置、计算机设备及存储介质_中国科学院深圳先进技术研究院_202311739306.4

解决定位误差的系统和方法_瑞维安知识产权控股有限责任公司_202311050082.6

一种高压气动油泵及其操作方法_中国石油天然气集团有限公司_202211219810.7

一株北见微杆菌及其培养和应用_中国石油化工股份有限公司_202211229506.0

墙面喷淋设备_华北冶建工程建设有限公司_202311699698.6

一种基于激光点云的对焊焊缝高精度识别方法_大连理工大学_202311821280.8

一种节能环保的牛仔服装水洗用污水处理工艺技术_广东省先进科学技术研究院_202211634006.5

通信方法及装置_华为技术有限公司_202211490569.1

正文相关技术

一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

一种网页正文抽取方法、装置、设备及存储介质_中国电子信息产业集团有限公司第六研究所_202110707708.0

匹配正文的方法、装置、设备、存储介质以及程序产品_北京百度网讯科技有限公司_202110209688.4

一种网页文章标题和正文的自动识别方法及装置_北京粉笔蓝天科技有限公司_202310211865.1

网页正文的提取方法、装置、服务器和存储介质_深圳市朱墨科技有限公司_201911329406.3

一种web网页的正文内容提取方法、装置、设备及介质_杭州安恒信息技术股份有限公司_202010032139.X

一种网页正文的识别处理方法及装置_奇安信科技集团股份有限公司_201910945459.1

一种校正文本的方法、装置及设备_中国移动通信集团江苏有限公司_201811509815.7

融合标题和正文双向互注意力的涉法新闻相关性分析方法_昆明理工大学_202011055105.9

一种文档正文关键词提取方法及装置_北京奇艺世纪科技有限公司_201810889775.7

页面相关技术

一种页面测试方法、装置及其设备_阿里巴巴集团控股有限公司_201810301916.9

数据页面展示方法、装置、设备及存储介质_南京研利科技有限公司_202410038794.4

页面更新的数据处理方法以及装置_内蒙古伊泰信息技术有限公司_202311817865.2

一种页面图片合成方法和装置_北京沃东天骏信息技术有限公司_202010159010.5

用于页面呈现的方法、装置、设备和介质_北京有竹居网络技术有限公司_202410145111.5

智能化页面构建方法、系统及存储介质_云和恩墨(北京)信息技术有限公司_202311723024.5

页面特征构建方法、装置、设备和存储介质_北京百度网讯科技有限公司_202010576052.9

页面展示方法、装置、设备及存储介质_北京字跳网络技术有限公司_202410052017.5

一种页面处理方法、装置、设备、存储介质及产品_腾讯科技(深圳)有限公司_202211214344.3

一种基于大数据的页面设计方法和系统_慧之安信息技术股份有限公司_202311862048.9

采集相关技术

数据采集系统和移动式数据采集设备_胜斗士(上海)科技技术发展有限公司_202121771068.1

土壤采集装置_招苏华_202321785536.X

水务数据采集装置_内蒙古霍煤鸿骏铝电有限责任公司_202322293330.1

指标采集方法及装置_中国工商银行股份有限公司_202110103176.X

数据采集管理方法_中核武汉核电运行技术股份有限公司_202111496880.2

一种基于统一数据采集管理平台的数据采集系统_北京华能新锐控制技术有限公司_202410027729.1

全景图像采集系统及具有该图像采集系统的智能巡检系统_上海华谊信息技术有限公司_202321571878.1

一种便携式地表径流自动采集装置及样品采集方法_长江水资源保护科学研究所_202311865961.4

一种数据采集控制电路及数据采集设备_广州佳帆计算机有限公司_202223611634.X

一种静脉血采集辅助固定床及其采集装置_中国人民解放军陆军军医大学第一附属医院_202311775948.X

龙图腾网&IPTOP

【发明授权】基于机器学习的网页采集页面的正文页采集方法_墨责(北京)科技传播有限公司_202211314510.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务