买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于neo4j图形数据库自动提取网页正文内容的方法_四川大学_202010138403.8 

申请/专利权人:四川大学

申请日:2020-03-03

公开(公告)日:2022-12-13

公开(公告)号:CN113343140B

主分类号:G06F16/958

分类号:G06F16/958;G06F16/81;G06F16/84

优先权:

专利状态码:有效-授权

法律状态:2022.12.13#授权;2021.09.21#实质审查的生效;2021.09.03#公开

摘要:本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合;步骤S102,提取HTML标签并将HTML源码转换为树形结构;步骤S103,遍历树中的所有节点提取出表示节点之间关系的三元组;步骤S104,利用neo4j图形数据库将关系三元组转换成图;步骤S105,通过节点压缩和枝节压缩,去除图中的冗余节点;步骤S106,提取多维特征,通过机器学习训练正文节点分类模型;步骤S107,利用分类模型提取出网页中的正文节点,并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

主权项:1.一种基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签,将网页源码转换为树形结构;步骤S102,遍历所述的树形结构中的所有节点,根据各节点之间的连接关系以及子节点之间的顺序关系,提取出表示各节点之间关系的三元组;步骤S103,利用neo4j图形数据库将关系三元组结构转换成图结构;步骤S104,在所述图结构中,将与末节点直接相连的空节点,根据该空节点连接的末节点的数量分为两类,分别进行节点压缩和枝节压缩;步骤S105,对压缩后的图提取节点数量特征和平均文本长度特征,生成特征向量;步骤S106,使用所述特征向量进行机器学习,训练出正文节点分类模型,利用该分类模型对网页中的节点进行分类,从而自动提取出网页中的正文节点;步骤S107,根据所提取出的正文节点,按照其子节点的顺序依次恢复子节点中的内容,提取出完整的网页正文内容。

全文数据:

权利要求:

百度查询: 四川大学 一种基于neo4j图形数据库自动提取网页正文内容的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。