【发明公布】基于分布式智能搜索引擎的高校学者信息检索方法_西南财经大学_202311107139.1

导航：龙图腾网> 最新专利技术> 基于分布式智能搜索引擎的高校学者信息检索方法_西南财经大学_202311107139.1

申请/专利权人：西南财经大学

申请日：2023-08-30

公开（公告）日：2023-11-24

公开（公告）号：CN117112876A

主分类号：G06F16/953

分类号：G06F16/953;G06F16/955;G06F9/54

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.12.12#实质审查的生效;2023.11.24#公开

摘要：本发明公开了一种基于分布式智能搜索引擎的高校学者信息检索方法，包括：将输入数据输入分布式搜索引擎中，目标网页识别器识别当前网页是否为学者信息页面；信息提取器根据预定义规则自动抽取学者的细粒度信息；并将其集中缓存至数据节点服务器中；URL提取器从页面中提取所有URL；URL等级队列根据链接锚文本将URL划分不同的等级，并赋予等级标签并存储到等级队列中；调节器根据URL标签的等级，从URL队列中提取URL并送入下载器中；从数据节点服务器中提取学者细粒度信息，构建倒排索引及信息检索功能；本发明解决了高等学府网站中科研学者信息检索、识别与细粒度抽取等难题。

主权项：1.一种基于分布式智能搜索引擎的高校学者信息检索方法，其特征在于，包括以下步骤：步骤1、获取国内外高等学府主页的网址URL，整理为输入数据；步骤2、搭建由一个数据节点与多个工作节点构成主从分布式搜索引擎；步骤3、将所述输入数据输入搭建的分布式搜索引擎中，所述分布式搜索引擎自动根据高校主页网址URL访问高校网站，并基于广度优先遍历的原则，从层层高校官网中获取网页；步骤4、目标网页识别器根据网页中的图像性、内容性和布局性特征准确识别当前网页是否为学者信息页面；步骤5、信息提取器根据预定义规则自动抽取学者的细粒度信息；步骤6、将抽取的细粒度信息集中缓存至数据节点服务器中的MongoDB及MySQL数据库中；步骤7、URL提取器从页面中提取所有URL；URL过滤器根据链接锚文本过滤掉噪声URL；步骤8、URL等级队列根据链接锚文本将URL划分不同的等级，并赋予等级标签并存储到等级队列中；调节器根据URL标签的等级，从URL队列中提取URL并送入下载器中；步骤9、从数据节点服务器中提取学者细粒度信息，基于ElasticSearch构建倒排索引及信息检索功能；步骤10、从数据节点服务器中提取学者细粒度信息，从学者信息中挖掘出学者之间的任职网络、合著网络及引用网络，构建以学者为核心的知识图谱，并存储进Neo4J图结构数据库中，便于后续检索及研究。

全文数据：

权利要求：

百度查询：西南财经大学基于分布式智能搜索引擎的高校学者信息检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种物品投递方法、装置、设备及介质和物品投递系统_何永安_202410173109.9

下一篇：一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

相关技术

一种物品投递方法、装置、设备及介质和物品投递系统_何永安_202410173109.9

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

一种海底设施多关节柔性智能体的控制方法及系统_同济大学_202410164319.1

数据标注方法、电子设备和计算机可读存储介质_浙江大华技术股份有限公司_202311671122.9

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

基于扩散模型的双阶段无人机遥感图像识别方法_中国人民解放军国防科技大学_202410331538.4

一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

净化珊瑚生境水质的生物过滤装置_广东海洋大学深圳研究院_202311835959.2

龙图腾网&IPTOP

【发明公布】基于分布式智能搜索引擎的高校学者信息检索方法_西南财经大学_202311107139.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务