【发明授权】一种基于neo4j图形数据库自动提取网页正文内容的方法_四川大学_202010138403.8

导航：龙图腾网> 最新专利技术> 一种基于neo4j图形数据库自动提取网页正文内容的方法_四川大学_202010138403.8

申请/专利权人：四川大学

申请日：2020-03-03

公开（公告）日：2022-12-13

公开（公告）号：CN113343140B

主分类号：G06F16/958

分类号：G06F16/958;G06F16/81;G06F16/84

优先权：

专利状态码：有效-授权

法律状态：2022.12.13#授权;2021.09.21#实质审查的生效;2021.09.03#公开

摘要：本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括：步骤S101，利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合；步骤S102，提取HTML标签并将HTML源码转换为树形结构；步骤S103，遍历树中的所有节点提取出表示节点之间关系的三元组；步骤S104，利用neo4j图形数据库将关系三元组转换成图；步骤S105，通过节点压缩和枝节压缩，去除图中的冗余节点；步骤S106，提取多维特征，通过机器学习训练正文节点分类模型；步骤S107，利用分类模型提取出网页中的正文节点，并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

主权项：1.一种基于neo4j图形数据库自动提取网页正文内容的方法，其特征在于：步骤S101，利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签，将网页源码转换为树形结构；步骤S102，遍历所述的树形结构中的所有节点，根据各节点之间的连接关系以及子节点之间的顺序关系，提取出表示各节点之间关系的三元组；步骤S103，利用neo4j图形数据库将关系三元组结构转换成图结构；步骤S104，在所述图结构中，将与末节点直接相连的空节点，根据该空节点连接的末节点的数量分为两类，分别进行节点压缩和枝节压缩；步骤S105，对压缩后的图提取节点数量特征和平均文本长度特征，生成特征向量；步骤S106，使用所述特征向量进行机器学习，训练出正文节点分类模型，利用该分类模型对网页中的节点进行分类，从而自动提取出网页中的正文节点；步骤S107，根据所提取出的正文节点，按照其子节点的顺序依次恢复子节点中的内容，提取出完整的网页正文内容。

全文数据：

权利要求：

百度查询：四川大学一种基于neo4j图形数据库自动提取网页正文内容的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于多镜头的图像处理方法、装置、电子设备及存储介质_OPPO广东移动通信有限公司_202410027999.2

下一篇：巡检动画生成方法、装置、计算机设备及存储介质_浙江中控信息产业股份有限公司_202410004969.X

相关技术

基于多镜头的图像处理方法、装置、电子设备及存储介质_OPPO广东移动通信有限公司_202410027999.2

巡检动画生成方法、装置、计算机设备及存储介质_浙江中控信息产业股份有限公司_202410004969.X

一种防拉花的面料数控裁剪机_杭州弥高服饰有限公司_202410053154.0

医疗设备及其维护方法、移动终端、维护系统、存储介质_深圳市理邦精密仪器股份有限公司_202211171817.6

一种VTI介质的叠前各向异性反演方法及装置_中国石油化工股份有限公司_202211211192.1

激光清洗发动机涡轮叶片表面热障涂层的清洗装置及方法_南昌航空大学_202410217714.1

一种碳纤维复合材料回收设备及回收工艺_江苏德晴新材股份有限公司_202311849367.6

一种国土空间规划用地理信息勘测采集设备_武汉永业赛博能规划勘测有限公司_202410226338.2

一种用于BUCK变换器短路保护的快速自恢复电路和方法_南通大学_202410034943.X

一种海空异构无人航行器反制自杀式无人机的分配方法_大连海事大学_202311840320.3

系数指示方法及其装置_北京小米移动软件有限公司_202280002653.6

数据处理方法、系统和智能电能表_华立科技股份有限公司_202311849804.4

龙图腾网&IPTOP

【发明授权】一种基于neo4j图形数据库自动提取网页正文内容的方法_四川大学_202010138403.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务