买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于搜索引擎的信息挖掘方法、装置及计算机设备_江西顶易科技发展有限公司_202410268836.3 

申请/专利权人:江西顶易科技发展有限公司

申请日:2024-03-11

公开(公告)日:2024-04-12

公开(公告)号:CN117874319A

主分类号:G06F16/951

分类号:G06F16/951;G06F16/955;G06F16/33;G06F40/30

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于搜索引擎的信息挖掘方法、装置及计算机设备,属于计算机技术领域。本发明根据主题词利用引擎搜索确定种子链接,根据种子链接进行用户信息挖掘。通过第一拓展词调整子链接的继承权重,进而调整第二队列的顺序,通过第二拓展词调整目标URL的引用权重,进而调整第一队列的顺序,增加关联页面的聚集程度,提高爬虫效率。通过链接索引表避免子链接被重复解析。通过计算网页下载数,能够清楚地了解信息挖掘的进度。通过设置最大下载数避免无限挖掘。

主权项:1.一种基于搜索引擎的信息挖掘方法,其特征在于,包括以下步骤:步骤1:从字库中提取基于主题词的多项第一拓展词和第二拓展词,根据主题词从搜索引擎中提取种子链接,将种子链接存储为第一队列的目标URL;步骤2:将第一队列的目标URL逐一发送给下载器和链接索引表,下载器获取目标URL相应的网页内容,将网页内容发送给解析器;步骤3:解析器将解析出的HTML数据发送给处理器,处理器将HTML数据转化为DOM树,遍历DOM树的多个标签路径,抽取至少一个标签路径的文本内容,从文本内容中提取目标文本与子链接;步骤4:将目标文本存入第一存储器,匹配文本内容与第一拓展词,生成子链接的继承权重,将具有继承权重的子链接存储至第二队列;步骤5:若网页下载数小于最大下载数,进入步骤6,否则结束任务;步骤6:若第一队列为空集,进入步骤7,否则基于第二拓展词生成第一队列中剩余目标URL的引用权重,根据引用权重排列剩余目标URL,返回步骤2;步骤7:根据链接索引表删除第二队列的至少一个子链接,若第二队列为空集,结束任务,否则进入步骤8;步骤8:提取第二队列中子链接的修改时间,根据继承权重和修改时间计算第二队列中子链接的主题相关度,根据主题相关度排列第二队列的子链接;步骤9:将第二队列的子链接存储为第一队列的目标URL,同时清空第二队列,返回步骤2。

全文数据:

权利要求:

百度查询: 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。