买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种网页文章标题和正文的自动识别方法及装置_北京粉笔蓝天科技有限公司_202310211865.1 

申请/专利权人:北京粉笔蓝天科技有限公司

申请日:2023-03-07

公开(公告)日:2023-12-15

公开(公告)号:CN116362223B

主分类号:G06F40/205

分类号:G06F40/205;G06F40/154;G06F40/258;G06F40/253;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2023.12.15#授权;2023.07.18#实质审查的生效;2023.06.30#公开

摘要:本发明提出一种网页文章标题和正文的自动识别方法及装置,属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容等步骤。本发明提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。

主权项:1.一种网页文章标题和正文的自动识别方法,其特征在于,所述方法包括如下步骤:S1:将网页中的所有元素解析成DOM树;S2:逐个对DOM树中的所有元素进行广度优先遍历;S3:针对每一个当前元素,检查当前元素包含的直接文本内容长度,并判断当前元素是否是a元素;若当前元素包含的直接文本内容长度大于第一预设阈值,并且当前元素不是a元素,则进入步骤S4;否则,返回步骤S2;S4:判断当前元素是否是块级元素,如果是,则查找当前元素的父元素;否则,则查找当前元素的块级父元素的父元素;S5:将上一步骤查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1;所述哈希记录表采用双线程队列;所述双线程队列包括第一线程和第二线程,所述第一线程用于接收所述查找到的父元素,所述第二线程用于给所述接收的父元素在所述队列中分配存储位置;S6:判断所述DOM树中的所有元素是否均遍历完毕,如果是,进入步骤S7;否则,返回步骤S2;S7:从哈希记录表中选择网页正文根元素权重值最大的元素,作为文章正文内容的根元素;S8:以文章正文内容的根元素为起始,对网页内容进行反向广度优先遍历,查找文章的当前标题元素;S9:判断文章的当前标题元素对应的文本内容长度是否大于第二预设阈值;如果是,则进入步骤S10;否则,返回步骤S8;S10:将文章的当前标题元素作为文章标题的候选元素添加到标题候选元素列表中;所述标题候选元素列表采用双线程环形栈实现;所述双线程环形栈包括第三线程和第四线程,所述第三线程用于管理所述环形栈的空余存储位置;所述第四线程用于接收所述候选元素并将所述候选元素压入所述环形栈的空余存储位置;S11:从标题候选元素列表中根据自定义标题特征选择最优的元素作为文章标题元素;S12:结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容。

全文数据:

权利要求:

百度查询: 北京粉笔蓝天科技有限公司 一种网页文章标题和正文的自动识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。