【发明公布】一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

导航：龙图腾网> 最新专利技术> 一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

申请/专利权人：北京国科众安科技有限公司

申请日：2023-10-17

公开（公告）日：2024-02-20

公开（公告）号：CN117573959A

主分类号：G06F16/951

分类号：G06F16/951;G06F18/232;G06N5/04;G06F40/20;G06F16/958

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.08#实质审查的生效;2024.02.20#公开

摘要：本发明提供了一种基于网页xpath获取新闻正文的通用方法，属于自然语言处理技术领域，其方法包括：通过Scrapy爬虫框架工具获取新闻网站的xpath；用k‑means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath；通过n组xpath中每组xpath反向推出每个xpath所对应内容；获取每组xpath总内容文本大小，筛选出文本最大的组；将所述文本最大的组作为xpath正文部分入库，实现对网页新闻正文内容的爬取。解决了新类型的网站也需要通过维护规则库的方式达到获取正文的目的，人工投入量较大，维护成本较高的问题。

主权项：1.一种基于网页xpath获取新闻正文的通用方法，其特征在于，该方法包括：步骤1：通过Scrapy爬虫框架工具获取新闻网站的xpath；步骤2：用k-means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath；步骤3：通过n组xpath中每组xpath反向推出每个xpath所对应内容；步骤4：获取每组xpath总内容文本大小，筛选出文本最大的组；步骤5：将所述文本最大的组作为xpath正文部分入库，实现对网页新闻正文内容的爬取；其中将所述文本最大的组作为xpath正文部分入库之后，还包括：获取所有xpath形成的文本并进行段落划分，划分为多个段落块；根据每个段落块的文本属性获得每个段落块的标签属性；确定每个段落块的候选关键词的数量，获取每个候选关键词的关键词参数；根据每个候选关键词的关键词参数确定该候选关键词与其所属的目标段落块的目标标签属性的目标关联度；将目标关联度大于等于预设关联度的目标候选关键词进行筛选，获得每个段落块各自对应的当前数量个目标候选关键词；解析每个目标候选关键词的特征因子；基于特征因子，确定对应段落块基于同段落块中每个目标候选关键词的依赖度，并筛选依赖度大于等于预设阈值的期望候选关键词；将所述每个段落块对应的期望候选关键词，确定为每个段落块内与所述标签属性相关的目标关键词；利用目标关键词在文本中进行搜索，获得每个目标关键词所搜索出的关联文本；对每个目标关键词所搜索出的关联文本进行解析，获取每个目标关键词的相关参数映射信息；根据每个目标关键词的相关参数映射信息确定该目标关键词的价值指数；在所有价值指数中选择最大价值指数，并将最大价值指数对应的目标关键词作为实体关键词；利用预设词性解析方式解析所述实体关键词的目标词性；根据所述实体关键词的目标词性确定所有xpath形成的文本的具体表达方法。

全文数据：

权利要求：

百度查询：北京国科众安科技有限公司一种基于网页xpath获取新闻正文的通用方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

下一篇：一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

相关技术

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种计算机机箱外壳_深圳市丰翼高精密五金有限公司_202322585533.8

一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

龙图腾网&IPTOP

【发明公布】一种基于网页xpath获取新闻正文的通用方法_北京国科众安科技有限公司_202311344752.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务