买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于关键长句及正文长度预分类的网页处理方法_中电万维信息技术有限责任公司_202210821728.5 

申请/专利权人:中电万维信息技术有限责任公司

申请日:2022-07-13

公开(公告)日:2022-11-08

公开(公告)号:CN115309978A

主分类号:G06F16/9535

分类号:G06F16/9535;G06F40/194;G06F16/35;G06F40/211;G06F40/30;G06F40/216;G06F40/289

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.11.25#实质审查的生效;2022.11.08#公开

摘要:本发明涉及互联网技术领域,且公开了一种基于关键长句及正文长度预分类的网页处理方法,包括以下步骤,正文信息的抽取,首先要对整个网页数据进行处理提取出HTML树结构,使网页HTML树中整个正文的内容被提取出来。该一种基于关键长句及正文长度预分类的网页处理方法,通过结合基于关键长句的网页特征码提取及基于关键长句的网页特征码提取和基于语义特征提取技术的优点,同时发挥语义关键长句的重要性及上下文之间的联系性,减少了所需特征的数量,大大提高了特征提取的准确度及查重效率,通过基于中文标点符号HTML树结构的网页正文信息抽取方法通用性强、准确率高,提高网页语义内聚性文本处理的效率。

主权项:1.一种基于关键长句及正文长度预分类的网页处理方法,其特征在于,包括以下步骤:S1、正文信息的抽取首先要对整个网页数据进行处理提取出HTML树结构,其中网页数据来源为选取多个不同的门户网站,每个网站随机选取多个正文型网页,使网页HTML树中整个正文的内容被提取出来,其中正文包括正文的主题和正文的内容,遍历HTML树,提取所有的text结点,同时记录从根结点到每个text叶结点的链路,在这里使用递归算法遍历HTML树递归函数;S2、正文结构样本的确定检查每段文字内容记录各自的中文句号数并选择句号数最大的文字内容对应的链路为结构样本,其句号数最大的文字内容是指选取的正文中含有最多句号的文段,选取其他中文句号较多的文字内容将其与结构样本进行链路结构的比较以确定结构样本的正确性;S3、网页特征选择阈值为正文内容,相似度阈值的选择是考虑正文内容中经常出现的链接和被修饰的文本块,当一部分文本块同时被链接和修饰,则该结点对应的链路结构与样本链路结构匹配的结点数目减少1链路长度和增加2从而相似度为: 其中L0为样本正文的链路长度,K0为衡量链路i与链路j相似程度的指标;S4、基于关键长句的网页特征码提取关键长句是指网页正文中包含关键词的最长句子,若同时包含多个关键词,则以权重大的关键词为准,关键词是通过权重计算所得到的权重值较大的词语,使用TF-IDF算法计算网页正文经过分词处理后各词语的权重,TF及IDF的计算公式为: 其中,N表示语料库中的文档总数,Nt为语料库中出现词语t的文档数目;S5、长短句的分割首先,针对正文内容对正文结构进行层次划分,将正文结构定义为一个二元组Root,F,其中Root是根节点,F是m棵子树的森林,F=CT1,CT2,…,CTn,CTi=ri,Fi称为根Root的第i棵子树,而树中每一个节点都表示为一个二元组TNode=SID,SW,其中SID为自然段的编号,SW为该自然段的权值,接着将长句定义为字符长度不少于k,选取所有长句中最长的m个句子,对于不足m个句子的段落,则应保留所有句子,然后,计算所有长句的摘要,并以这些摘要所组成的向量作为段落的特征,在判断段落是否为重复段落时,应先计算该段落所包含的句子数,再利用长句提取算法求出段落的特征;S6、基于正文长度预分类的相似度计算将网页按正文长度划分成不同的集合,那么在判断网页相似性的时候,则只需判断长度相近的集合内的网页,而不用与所有网页进行比较,首先应当寻找集合划分的依据,将网页库中的所有网页按正文长度平均划分成若干个子集,接着利用Shingling去重算法中所定义的两个网页文档d1、d2间相似度的定义公式: 若假设|A|<|B|,则对上述公式进行如下缩放处理: 将两个网页文档的相似性与文档正文的长度联系到一起,如果将判断相似的阈值设为t,那么只有当simd1,d2≥t,即|d2|≤|d1|t时,两个文档才被判定为相似;S7、重复相似处理通过基于关键长句的网页特征码提取与基于正文长度预分类的相似度计算相互配合,对移动端的重复相似网页进行处理。

全文数据:

权利要求:

百度查询: 中电万维信息技术有限责任公司 一种基于关键长句及正文长度预分类的网页处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。