买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】相似网页检测方法、装置、存储介质及电子设备_北京字节跳动网络技术有限公司_201811369272.3 

申请/专利权人:北京字节跳动网络技术有限公司

申请日:2018-11-16

公开(公告)日:2020-01-10

公开(公告)号:CN109710834B

主分类号:G06F16/953(20190101)

分类号:G06F16/953(20190101);G06F16/33(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.01.10#授权;2019.05.28#实质审查的生效;2019.05.03#公开

摘要:本公开涉及一种相似网页检测方法、装置、存储介质及电子设备,在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有目标网页中的网页文本信息;计算目标文本与网页文本信息的匹配率,并将匹配率大于第一预设阈值的网页确定为与目标文本相似的网页。这样,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。

主权项:1.一种相似网页检测方法,其特征在于,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似;所述匹配分数的计算方法为:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。

全文数据:相似网页检测方法、装置、存储介质及电子设备技术领域本公开涉及文本识别领域,具体地,涉及一种相似网页检测方法、装置、存储介质及电子设备。背景技术网站内容投稿的搬运抄袭现象屡见不鲜,多个网站出现内容相近的内容的情况也是现在网络社区的一种常态,这不仅仅损害了原创作者的利益,同时也对无法识别抄袭内容的网站造成一定的影响。因此需要一种对文本在全网进行相似度检测的方法,这样就能够针对投稿进行抄袭识别,以避免投稿是抄袭于其他网站内容但无法检测出来的现象。发明内容本公开的目的是提供一种相似网页检测方法、装置、存储介质及电子设备,能够实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。为了实现上述目的,本公开提供一种相似网页检测方法,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,以得到第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。可选地,所述在目标文本中选取第一预设个数的目标句子包括:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行采样,以获取所述第一预设个数的目标句子。可选地,所述使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,以得到第三预设个数的目标网页包括:使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。可选地,所述计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率包括:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度包括:根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。可选地,所述计算所述目标文本与所述网页文本信息的匹配率包括:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。可选地,所述匹配分数的计算方法为:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。可选地,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。本公开还提供一种相似网页检测装置,所述装置包括:第一处理模块,用于在目标文本中选取第一预设个数的目标句子;第二处理模块,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,以得到第三预设个数的目标网页;第三处理模块,用于获取所有所述目标网页中的网页文本信息;第四处理模块,用于计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。可选地,所述第一处理模块还用于:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。可选地,所述第二处理模块包括:搜索子模块,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;相似率计算子模块,用于计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;相似度计算子模块,用于计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;目标网页确定子模块,用于根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。可选地,所述相似率计算子模块还用于:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述相似度计算子模块还用于根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。可选地,所述第四处理模块还用于:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。可选地,所述第四处理模块还用于:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。可选地,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上所述方法的步骤。本公开还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现以上所述方法的步骤。通过上述技术方案,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是根据本公开一示例性实施例示出的一种相似网页检测方法的流程图。图2是根据本公开一示例性实施例示出的一种相似网页检测方法中确认目标网页的方法的流程图。图3是根据本公开一示例性实施例示出的一种相似网页检测装置的结构框图。图4是根据本公开一示例性实施例示出的又一相似网页检测装置的结构框图。图5是根据一示例性实施例示出的一种电子设备的框图。图6是根据一示例性实施例示出的一种电子设备的框图具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。图1是根据本公开一示例性实施例示出的一种相似网页检测方法的流程图。如图1所示,所述方法包括步骤101至步骤104。在步骤101中,在目标文本中选取第一预设个数的目标句子。在进行对与目标文本相似网页的检测时,可以首先从目标文本中选择部分句子来进行搜索,这样会比对整个目标文本进行搜索耗费的时间要短很多,从而能够提高相似网页检测的效率。该第一预设个数的取值范围优选应该小于所述目标文本中所有句子的总数,且大于1。在一种可能的实施方式中,所述在目标文本中选取第一预设个数的目标句子包括:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。想要在目标文本中选择部分句子来代替整个目标文本来进行网页的搜索,首先可以对目标文本执行分句的操作,其中,对一段文本信息进行分句的方法对于本领域技术人员来说是常用的技术手段,因此,第一预设规则可以为任意对文本的分句方法,此处就不再对分句的方法赘述。在将目标文本分句完成之后,在目标文本中的所有句子中选取第一预设个数的目标句子时,可以采用随机采样的方式来从所有句子中将该第一预设个数的目标句子选取出来。所述第一预设个数可以为例如10个。在步骤102中,使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页。在步骤101中从根据目标文本进行分句之后得到的所有句子中选取出第一预设个数的目标句子之后,可以使用搜索引擎分别对每个目标句子都进行搜索,并获取第三预设个数的目标网页。其中,所述搜索引擎可以使用一个或多个,在使用多个搜索引擎时,每一个目标句子都要在每一个搜索引擎中进行一次搜索,且在所有的搜索结果中根据所述第二预设规则选择第三预设个数的目标网页。由于通过搜索引擎对目标句子进行搜索得到的网页数量一般比较庞大,因此在执行后续的步骤之前,需要先在通过一个或多个搜索引擎对第一预设个数的目标句子搜索得到的大量网页中选取第三预设数量的目标网页,控制后续步骤中需要进行处理的目标网页的数量,该第二预设规则在此不做限制,只要是能够在搜索结果中确定该第三预设个数的目标网页即可。该第三预设个数可以为例如50。在步骤103中,获取所有所述目标网页中的网页文本信息。在步骤102中确定了第三预设数量的目标网页之后,对所述目标网页中的网页文本信息进行获取,以便在后续的步骤104中使用。在步骤104中,计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。在选定了目标网页,且获取了所有目标网页中的网页文本信息之后,对目标文本与所有目标网页的网页文本信息进行比较,并计算目标文本与每个目标网页之间的匹配率。该匹配率的计算方法在此不做限制,只要该匹配率能够表征目标文本与目标网页之间的相似程度即可,匹配率越高,相似程度越高。其中,该第一预设阈值可以为例如70%。通过上述技术方案,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。在一种可能的实施方式中,如图1所示的步骤102中的所述第二预设规则可以包括如图2所示的的步骤201至步骤204。在步骤201中,选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页。其中,所述第四预设个数可以为例如10个,即每个搜索引擎对所述目标句子中的任意一个目标句子进行搜索之后,都将搜索得到的结果中排序靠前的10条网页作为基础召回网页。如果所述目标句子的个数是10个,所述第二预设个数为2,则最终返回的基础召回网页的个数即为200个10*2*10。在步骤202中,计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似。此时计算步骤201中筛选出的基础召回网页与每一个目标句子之间的相似率,是通过比较基础召回网页的摘要文本与目标句子之间的相似性来计算的。摘要文本的大小一般能够保持在一定字数范围内,因此,对摘要文本与目标句子之间进行比较与直接对基础召回网页的全部网页文本信息与目标句子之间进行比较相比,能够大大提高该相似率的计算效率。在步骤203中,计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度。所述第二预设阈值可以为例如80%。在步骤202中通过对基础召回网页的摘要与目标句子之间进行比较得到了每个基础召回网页与目标句子之间的相似率,根据该相似率的排序,选出该相似率大于第二预设阈值的基础召回网页。这个过程也能在所述基础召回网页中选出与目标文本更加相似的一部分网页来进行针对所述基础召回网页中全部的网页文本信息的进一步的相似度的计算。在步骤203中,需要进行相似度计算的基础召回网页已经根据步骤202中计算得到的相似率进行了一次筛选,因此,此时剩下的基础召回网页数量已经比直接用第二预设个数的搜索引擎的搜索结果中的网页数量少了很多,可以直接对所述剩下的基础召回网页地全部网页文本信息进行检测,计算其与目标句子之间的相似度。在步骤204中,根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。所述第三预设个数可以为例如50个。在计算出目标句子与剩下的基础召回网页的全部网页文本信息之间的相似度之后,根据该相似度再选择与目标句子最相似的前第三预设个数的网页确定为目标网页,该相似度可以是值越大表征越相似,也可以是值越小表征越不相似。这样就能够将与目标文本相似的网页数量按照相似程度从大到小缩小至第三预设个数个。在一种可能的实施方式中,图2中所示的步骤202还包括:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率。例如,某个目标句子分词后有10个词,某一个与所述目标句子相对应的基础召回网页的摘要文本分词后有12个词,该目标句子中有9个词都能在该摘要文本中找到匹配,那么该相似率即为90%910。在一种可能的实施方式中,图2中所示的步骤203还包括:根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。在一种可能的实施方式中,图1中所示的步骤104中所述计算所述目标文本与所述网页文本信息的匹配率的方法可以为:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率。所述第三预设规则可以与所述第一预设规则相同,也可以不相同,只要都能实现对目标文本进行分句的功能即可。在对目标文本进行分句之后,对所得到的目标文本的所有句子,都执行将其与目标网页的网页文本信息进行比较的步骤,以得到所述目标文本中所有句子分别与所述目标网页之间的匹配分数,所述匹配分数用于表征目标文本中的句子与目标网页之间的相似程度,匹配分数越高,相似程度越高。然后根据该匹配分数来计算每一个目标网页的匹配率,例如,目标文本分句之后一共分成了10个句子,且所述第三预设阈值为80%,对于目标网页中其中一个网页A,目标文本中与该网页A的匹配分数大于80%的句子一共有9个,那么该目标文本与网页A的匹配率即为90%。上述匹配分数的计算方法可以为任意计算文本相似程度的方法,在一种可能的实施方式中,也可以为以下所述的方法:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。所述第五预设阈值可以根据实际情况进行不同的设定,优选为80%。例如,所述目标文本中的某一个句子进行分词之后,得到该句子由A,B,C,D四个词构成,所述目标网页中某一个网页的网页文本信息也进行分词处理,并确定A,B,C,D四个词分别在该网页中所占的位置,例如A=5,10,12,20,24,B=1,3,11,55,75,98,C=7,13,45,56,85,97,101,D=8,14,44,57,86,88,将A,B,C,D四个词分别在该网页中的位置合并,得到A,B,C,D四个词在该网页文本信息中的位置1,B,3,B,5,A,7,C,8,D,10,A,11,B,12,A,13,C,14,D,20,A,24,A,44,D,45,C,55,B,56,C,57,D,75,B,85,C,86,D,88,D,97,C,98,B,101,C。然后建立一个长度为该句子词数的窗口,利用该窗口在该网页的网页文本信息中逐词移动,每移动一次进行一次打分,每次打分时,先计算该网页文本信息在该窗口中的词与该句子中的词的相匹配的比例是否不小于60%第五预设阈值,如果是,则计算在该窗口中,被匹配到的词且相邻的词之间的距离与词总数的第二比值,例如,该三个词的窗口移动到该网页文本中的54,55,56,57这四个位置上时,能够得到该网页文本信息在该窗口中的词与该句子中的词的相匹配的比例为3475%,大于该第五预设阈值60%,则进行后续的打分;在该窗口中,匹配到的词B,C,D之间彼此相邻,因此距离为B,C之间的距离1加上C,D之间的距离1,句子词总数为可移动窗口中的总词数减一,即四减一等于三,因此,该窗口所在位置的得到的匹配分数即为23。当该可移动窗口在该网页文本信息中所有位置都进行打分完毕之后,将最高的分数作为该网页与该句子相对应的匹配分数。在一种可能的实施方式中,在可移动窗口在网页文本信息中逐词移动进行打分时,当计算网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例时,若该比例为1,则表示该句子已经能够在该网页文本信息中完全匹配,不再进行打分,直接返回1作为该网页与该句子相对应的匹配分数。在一种可能的实施方式中,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。在一种可能的实施方式中,在图1所示的步骤103之后,比较所述目标文本的第一作者与目标网页中的第二作者,若所述第一作者与所述第二作者相同,则不执行图1所示的步骤104中的步骤。图3是根据本公开一示例性实施例示出的一种相似网页检测装置的结构框图。如图3所示,所述装置包括:第一处理模块10,用于在目标文本中选取第一预设个数的目标句子;第二处理模块20,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,以得到第三预设个数的目标网页;第三处理模块30,用于获取所有所述目标网页中的网页文本信息;第四处理模块40,用于计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页。通过上述技术方案,能够通过将待识别的目标文本分句,并利用搜索引擎进行搜索得到与所述目标文本具有相似内容的目标网页,通过对目标网页中的文本信息与目标文本进行匹配,从而实现将与目标文本相似的网页检测出来的效果,这样就能够轻松地检测到目标文本是否抄袭于其他的网页内容。在一种可能的实施方式中,所述第一处理模块10还用于:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。图4是根据本公开一示例性实施例示出的一种相似网页检测装置中的第二处理模块20的结构框图。如图4所示,所述第二处理模块20包括:搜索子模块201,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;相似率计算子模块202,用于计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;相似度计算子模块203,用于计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;目标网页确定子模块204,用于根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。在一种可能的实施方式中,所述相似率计算子模块202还用于:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述相似度计算子模块203还用于根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。在一种可能的实施方式中,所述第四处理模块40还用于:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。在一种可能的实施方式中,所述第四处理模块40还用于:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。在一种可能的实施方式中,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入输出IO接口504,以及通信组件505中的一者或多者。其中,处理器501用于控制该电子设备500的整体操作,以完成上述的相似网页检测方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器StaticRandomAccessMemory,简称SRAM,电可擦除可编程只读存储器ElectricallyErasableProgrammableRead-OnlyMemory,简称EEPROM,可擦除可编程只读存储器ErasableProgrammableRead-OnlyMemory,简称EPROM,可编程只读存储器ProgrammableRead-OnlyMemory,简称PROM,只读存储器Read-OnlyMemory,简称ROM,磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。IO接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信NearFieldCommunication,简称NFC,2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路ApplicationSpecificIntegratedCircuit,简称ASIC、数字信号处理器DigitalSignalProcessor,简称DSP、数字信号处理设备DigitalSignalProcessingDevice,简称DSPD、可编程逻辑器件ProgrammableLogicDevice,简称PLD、现场可编程门阵列FieldProgrammableGateArray,简称FPGA、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的相似网页检测方法。在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的相似网页检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的相似网页检测方法。图6是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图6,电子设备600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的相似网页检测方法。另外,电子设备600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行电子设备600的电源管理,该通信组件650可以被配置为实现电子设备600的通信,例如,有线或无线通信。此外,该电子设备600还可以包括输入输出IO接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM等等。在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的相似网页检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器632,上述程序指令可由电子设备600的处理器622执行以完成上述的相似网页检测方法。以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

权利要求:1.一种相似网页检测方法,其特征在于,所述方法包括:在目标文本中选取第一预设个数的目标句子;使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;获取所有所述目标网页中的网页文本信息;计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。2.根据权利要求1所述的方法,其特征在于,所述在目标文本中选取第一预设个数的目标句子包括:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。3.根据权利要求1所述的方法,其特征在于,所述第二预设规则包括:选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。4.根据权利要求3所述的方法,其特征在于,所述计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率包括:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度包括:根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。5.根据权利要求1所述的方法,其特征在于,所述计算所述目标文本与所述网页文本信息的匹配率包括:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。6.根据权利要求5所述的方法,其特征在于,所述匹配分数的计算方法为:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。7.根据权利要求1所述的方法,其特征在于,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。8.一种相似网页检测装置,其特征在于,所述装置包括:第一处理模块,用于在目标文本中选取第一预设个数的目标句子;第二处理模块,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,并根据第二预设规则从搜索结果中选取第三预设个数的目标网页;第三处理模块,用于获取所有所述目标网页中的网页文本信息;第四处理模块,用于计算所述目标文本与所述网页文本信息的匹配率,并将所述匹配率大于第一预设阈值的网页确定为与所述目标文本相似的网页,其中,所述匹配率越高,表征所述目标文本与所述网页文本信息越相似。9.根据权利要求8所述的装置,其特征在于,所述第一处理模块还用于:根据第一预设规则对所述目标文本进行分句,并在根据所述第一预设规则对所述目标文本进行分句后所得到的所有句子中进行随机采样,以获取所述第一预设个数的目标句子。10.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:搜索子模块,用于使用第二预设个数的搜索引擎对每个所述目标句子进行搜索,选取每个所述搜索引擎针对每个所述目标句子返回的搜索结果网页中的前第四预设个数的网页作为基础召回网页;相似率计算子模块,用于计算每个所述目标句子与相对应的所述基础召回网页的摘要文本之间的相似率,所述相似率越高,表征所述摘要文本与所述目标句子之间越相似;相似度计算子模块,用于计算所述相似率高于第二预设阈值的所述基础召回网页与对应的所述目标句子之间的相似度;目标网页确定子模块,用于根据所述相似度,将与所述目标句子最相似的前第三预设个数的网页确定为所述目标网页。11.根据权利要求10所述的装置,其特征在于,所述相似率计算子模块还用于:对每个所述目标句子和所述摘要文本进行分词;分别将每个所述目标句子中的词与相对应的所述摘要文本中的词进行匹配,并将匹配到的所述目标句子中的词的个数与所述目标句子中的词的总数的第一比值确定为所述相似率;所述相似度计算子模块还用于根据以下公式计算所述相似度:score=hit_rate*10+return_counts,其中,所述score为所述相似度,所述hit_rate为所述相似率,所述return_counts为返回了所述基础召回网页的所述搜索引擎的个数。12.根据权利要求8所述的装置,其特征在于,所述第四处理模块还用于:根据第三预设规则对所述目标文本进行分句,并计算所得到的所有句子分别在所述网页文本信息中的匹配分数,且针对每一个所述网页文本信息,将与所述网页文本信息的所述匹配分数大于第三预设阈值的句子在根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子中所占的比例作为所述目标网页的匹配率,其中,所述匹配分数用于表征所述目标文本中的句子与所述网页文本信息之间的相似程度,匹配分数越高,相似程度越高。13.根据权利要求12所述的装置,其特征在于,所述第四处理模块还用于:对根据所述第三预设规则对所述目标文本进行分句后所得到的所有句子进行分词,并根据所述所有句子中包含的词的个数分别设置可移动窗口,通过逐词移动所述可移动窗口来进行所述所有句子与所述网页文本信息之间的匹配;在每次匹配中,若所述网页文本信息中在所述可移动窗口中显示的词与所述可移动窗口所对应的所述目标文本中的词的相匹配的比例不小于第五预设阈值,则计算所述目标文本中被匹配到且相邻的词之间的距离与词总数的第二比值,并将所述第二比值中最大的比值作为与所述可移动窗口相对应的句子的匹配分数,其中,所述词总数为所述可移动窗口中的总词数减一。14.根据权利要求8所述的装置,其特征在于,所述网页文本信息包括网页正文、发表时间、作者名称中一者或多者。15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。16.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。

百度查询: 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。