申请/专利权人:深信服科技股份有限公司
申请日:2019-01-25
公开(公告)日:2024-04-09
公开(公告)号:CN111488511B
主分类号:G06F16/953
分类号:G06F16/953;G06F40/289
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2020.08.28#实质审查的生效;2020.08.04#公开
摘要:本申请公开了一种网站主题提取方法、系统及一种电子设备和计算机可读存储介质,该方法包括:将目标网页按照目标分割方式分割为多个页面块,并提取所有页面块中的内容作为目标网站的空间特征;确定目标网站的检索关键词,根据检索关键词在目标搜索引擎中搜索得到搜索结果,并提取搜索结果中的内容作为目标网站的检索特征;对目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定目标网站的最终主题;其中,所有特征包括空间特征和检索特征,提高了网站主题提取的准确性。
主权项:1.一种网站主题提取方法,其特征在于,包括:将目标网站中目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征、所述检索特征、所述内容特征、所述顶级域名特征;其中,将目标网站中目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征,包括:对目标网站中目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征;和或,将目标网站中目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征;其中,若所述检索关键词为所述目标网页的网站域名,则根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:在所述目标搜索引擎中搜索所述网站域名得到备选结果;计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数。
全文数据:
权利要求:
百度查询: 深信服科技股份有限公司 一种网站主题提取方法、系统及电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。