【发明公布】网页信息自动抽取方法_新华智云科技有限公司_202010228475.1

导航：龙图腾网> 最新专利技术> 网页信息自动抽取方法_新华智云科技有限公司_202010228475.1

申请/专利权人：新华智云科技有限公司

申请日：2020-03-27

公开（公告）日：2020-07-17

公开（公告）号：CN111428444A

主分类号：G06F40/14(20200101)

分类号：G06F40/14(20200101);G06F40/146(20200101);G06F40/126(20200101);G06F16/951(20190101)

优先权：

专利状态码：有效-授权

法律状态：2023.10.20#授权;2020.08.11#实质审查的生效;2020.07.17#公开

摘要：本发明公开了一种网页信息自动抽取方法，其特征在于，包括以下步骤：对网页信息进行预处理；构建区块DOM树；定位正文区域；和对网页正文进行抽取；其中，构建区块DOM树包括以下步骤：对网页源码做容错补偿和DOM解析；在DOM基础上结合HTML区块布局元素构造区块DOM结构；结合展示特征统计DOM区块基础主题元素数量；和对DOM区块基础主题元素进行加权计算；其中，在定位正文区域时，根据加权计算获得的主题权值进行正文区域的定位。本发明的有益之处在于，兼顾了网页信息抽取效率和准确度，在并不显著降低传统网页抽取方法的基础上，考虑了网页的布局特征和HTML的部分视觉特征，有效提高了网页信息抽取的准确度。

主权项：1.一种网页信息自动抽取方法，其特征在于，包括以下步骤：对网页信息进行预处理；构建区块DOM树；定位正文区域；和对网页正文进行抽取；其中，构建区块DOM树包括以下步骤：对网页源码做容错补偿和DOM解析；在DOM基础上结合HTML区块布局元素构造区块DOM结构；结合展示特征统计DOM区块基础主题元素数量；和对DOM区块基础主题元素进行加权计算；其中，在定位正文区域时，根据加权计算获得的主题权值进行正文区域的定位。

全文数据：

权利要求：

百度查询：新华智云科技有限公司网页信息自动抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于激光点云的对焊焊缝高精度识别方法_大连理工大学_202311821280.8

下一篇：一种电源系统_广东电网有限责任公司_202311688056.6

相关技术

一种基于激光点云的对焊焊缝高精度识别方法_大连理工大学_202311821280.8

一种电源系统_广东电网有限责任公司_202311688056.6

校准方法、校准装置、介质及电子设备_上海交通大学_202211218075.8

一种门上单杠_胡一晨_202310312889.6

主动侧倾车辆安全冗余机制及侧倾运动断电锁止装置_北京坐骑科技有限公司_202310030092.7

一种三轨地铁受流器定位安装装置_中车长春轨道客车股份有限公司_202410005271.X

一种辅助筛选抗条锈病小麦的分子标记、引物及方法_河南农业大学_202311663553.0

一种水电机组发电机转子磁极铁芯压装装置_段红丽_202310136813.2

车辆转向方法、装置、整车控制器、存储介质及车辆_毫末智行科技有限公司_202211215638.8

基于硬件增强的芯片安全管理方法、装置、终端及介质_芯云晟(杭州)电子科技有限公司_202310732719.3

一种节能环保的牛仔服装水洗用污水处理工艺技术_广东省先进科学技术研究院_202211634006.5

电机参数的自动调整方法、装置、存储介质以及电子设备_北京东土科技股份有限公司_202311801193.6

龙图腾网&IPTOP

【发明公布】网页信息自动抽取方法_新华智云科技有限公司_202010228475.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务