买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种在电子地图中爬取地标信息的系统和方法_广州视源电子科技股份有限公司;广州视睿电子科技有限公司_201710109082.7 

申请/专利权人:广州视源电子科技股份有限公司;广州视睿电子科技有限公司

申请日:2017-02-27

公开(公告)日:2020-07-24

公开(公告)号:CN106897432B

主分类号:G06F16/29(20190101)

分类号:G06F16/29(20190101);G06F16/951(20190101);G06F16/9537(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.24#授权;2017.07.21#实质审查的生效;2017.06.27#公开

摘要:一种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,查找符合用户设置的地标命名规则关键词的地标信息。本发明还提供根据所述系统爬取地标信息的方法。本发明提出的技术方案能够爬取电子地图上较新的所匹配的不同类型的地标数据,并且通过获取的地标信息数据量调整坐标移动步长,模拟人工缩放操作,能够提高电子地图数据的爬取效率。

主权项:1.一种在电子地图中爬取地标信息的系统,其特征在于:包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内划分的多个地图坐标区域进行地标信息爬取;调度器用于向地图信息获取管理器提供待抓取的地图坐标区域,所述待抓取的地图坐标区域位于所述指定地图坐标范围内,为所述多个地图坐标区域中的一个;地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息,地标对应于电子地图上的建筑物;结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息;所述系统还包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域;在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域;其中,调度器根据地图信息解析器解析提取的地标信息数据量确定和调整坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器。

全文数据:一种在电子地图中爬取地标信息的系统和方法技术领域[0001]本发明属于信息搜索技术领域,具体涉及一种在电子地图中爬取地标信息的系统和方法。背景技术[0002]网络爬虫,或者称爬虫,是一种自动提取网页的程序,用于为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL统一资源定位符开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。[0003]目前,若要获取某类地标信息,如全国学校地理位置信息,需要通过网络爬虫在教育类网站中爬取所有学校信息,但是,这类网站信息很可能没有更新,导致获得的信息不全或者不准确。并且,若需要获取其他类地标信息,例如全国酒店地理位置信息,需要通过网络爬虫在酒店类网站中爬取所有酒店信息,因此,需要重新编写网络爬虫程序,不仅需要重复劳动,而且还同样面临网站信息未更新导致的获得信息不全或者不准确的问题。发明内容[0004]为了解决现有技术中存在的网站信息未更新导致的获取信息不全或不准确以及更换地标信息需要重新编写网络爬虫程序的技术问题,本发明实施例提供了一种在电子地图中爬取地标信息的系统和方法,技术方案如下。[0005]—种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;[0006]调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;[0007]地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;[0008]地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;[0009]结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。[0010]进一步,本发明实施例的系统包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域。[0011]进一步,在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域。[0012]进一步,调度器根据地图信息解析器解析提取的地标信息数据量确定坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;[0013]搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器。[00M]进一步,所述系统还包括存储器,存储预设的与地标信息数据量对应的多个阈值,每个阈值区间对应一个坐标移动步长。[0015]本发明实施例还提供一种在电子地图中爬取地标信息的方法,该方法包括如下步骤:[0016]步骤S21:获取指定的地图坐标范围,并获取地标命名规则关键字;[0017]步骤S22:根据待抓取的地图坐标区域,获取待抓取的地图坐标区域的地图数据;[0018]步骤S23:对获取到的地图数据进行解析,提取地标信息;[0019]步骤S24:对提取的地标信息进行判断,将与地标命名规则关键字匹配的地标信息保存到结果集中;[0020]步骤S25:获取新的待抓取的地图坐标区域,返回步骤S23,直到完成指定地图坐标范围的地标信息的爬取。[0021]进一步地,步骤S25中,根据解析提取的地标信息数据量,进行坐标移动步长的调整。[0022]进一步地,步骤S25中,还结合坐标点地理位置信息进行坐标移动步长的调整。[0023]进一步地,根据解析提取的地标信息数据量和或坐标点地理位置信息,预先设置有多个阈值,每个阈值区间对应一个坐标移动步长。[0024]进一步地,在步骤S23中,对获取到的地图数据进行解析时,还获取其中的链接地址,通过访问链接地址提取其中的地标信息。[0025]本发明实施例的有益效果:本发明实施例提出的技术方案通过爬取电子地图上的数据,获取某类地标信息,能够获取较新的数据,而且由于是对电子地图中的数据进行爬取,所以能够查找出世界不同区域的地标数据,这样可以不用对爬取程序做任何修改就能够获取到较新的不同类型的地标数据。[0026]另外,通过获取的地标信息数据量调整坐标移动步长,模拟人工缩放操作,能够提高电子地图数据的爬取效率。附图说明[0027]图1为本发明实施例提出的在电子地图中爬取地标信息的系统的结构框图;[0028]图2为本发明实施例提出在电子地图中爬取地标信息的方法的流程图。具体实施方式[0029]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。但本领域技术人员知晓,本发明并不局限于附图和以下实施例。[0030]本发明实施例提出的在电子地图中爬取地标信息的系统,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,如图1所示,该系统包括:地图信息获取管理器11、地图信息解析器12、调度器13、搜索范围控制器14和结果处理器15。[0031]其中,地图信息获取管理器11用于从电子地图中获取调度器13提供的待抓取的地图坐标区域的地图数据。[0032]待抓取的地图坐标区域位于指定地图坐标范围内,坐标范围可以是用地理坐标表示的坐标范围,地理坐标是用炜度、经度表示地面点位置的球面坐标;也可以是地理区域表示的坐标范围,地理区域例如是南美洲、北美洲、亚洲等;还可以是用行政区域表示的坐标范围,例如国家、州或省、市等。[0033]电子地图可以是但不限于百度地图、谷歌Google地图。[0034]地图数据包括图片、JSON数据或者其他文本格式内容。[0035]地图信息解析器12用于对地图信息获取管理器11获取到的地图数据进行解析,提取地标信息。[0036]地标对应于电子地图上的建筑物,建筑物包括学校、宾馆、公园、博物馆等等。[0037]结果处理器15用于对地图信息解析器12提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息,并向调度器13反馈处理结果。[0038]所述处理包括对地图信息解析器12提取的地标信息的计算、统计、区域划分等。[0039]搜索范围控制器14用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器13向地图信息获取管理器11提供的待抓取的地图坐标区域。[0040]在当前地图坐标区域抓取结束时,进行坐标移动。搜索范围控制14根据调度器13反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器13,实现坐标移动。[0041]地标命名规则关键字表示地标类别,例如对于地标命名规则关键字为学校时,地标命名规则关键字对应的地标包括幼儿园、小学、中学、大学、高中、初中、学院、研究院或所等。[0042]调度器13用于向地图信息获取管理器11提供待抓取的地图坐标区域;以及根据地图信息解析器12提取的地标信息数据量确定坐标移动步长并反馈给搜索范围控制器14,当提取的地标信息数据量较大时,减小步长,以便于系统的数据处理,当提取的地标信息数据量较小时,增大步长。由此,本发明实施例的在电子地图中爬取地标信息的系统还可以包括存储器,存储预设的与地标信息数据量对应的多个阈值,每个阈值区间对应一个坐标移动步长。[0043]优选的,调度器还结合坐标点地理位置信息进行坐标移动步长的调整,当坐标点地理位置信息显示为江河、山脉时,增加步长;当坐标点地理位置信息显示为具有较多建筑物时,减小步长。在对一个地图坐标范围内的首个地图坐标区域进行地标信息爬取时,默认选取最小步长进行。[0044]本发明实施例提出的在电子地图中爬取地标信息的方法,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,如图2所示,该方法包括如下步骤:[0045]步骤S21:搜索范围控制器14获取指定的地图坐标范围,并获取地标命名规则关键字。[0046]指定的地图坐标范围可以由用户设置,并设置地标命名规则关键字。此后,搜索范围控制器14会对指定的地图坐标范围进行区域划分,针对每个地图坐标区域爬取地标信息。[0047]步骤S22:调度器13向地图信息获取管理器11提供待抓取的地图坐标区域,地图信息获取管理器11获取待抓取的地图坐标区域的地图数据。[0048]步骤S23:地图信息解析器12对地图信息获取管理器11获取到的地图数据进行解析,提取地图数据中的地标信息,并将提取的地标信息发送到结果处理器15。[0049]地图信息解析器12对地图信息获取管理器获取到的地图数据进行解析时,当获取到链接地址,也会通过访问链接地址提取其中的地标信息。[0050]步骤S24:结果处理器15对提取的地标信息进行判断,其中与用户设置的地标命名规则关键字匹配的地标信息保存到结果集中,并向调度器13反馈处理结果。结果处理器15把所有提取的地标信息包括匹配的地标信息和不匹配的地标信息保存到数据库中,以便于可以在数据库中直接对其他地标命名规则关键字进行该地图坐标范围内的搜索。[0051]步骤S25:结果处理器15处理结束后,调度器13根据地图信息解析器12提取的地标信息数据量进行坐标移动步长的调整;搜索范围控制器14根据调度器13反馈的坐标移动步长和当前地图中心点确定新的地图中心点以及新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器13,从而实现坐标移动。[0052]例如,地图信息解析器12对当前地图坐标区域的地图数据进行解析,提取的数据量大于第一阈值时,说明该区域内存在的地标较多,能够获取的信息较多,则调度器13会减小步长,相当于放大所显示的地图地标区域,从而地图信息获取管理器11能够获取下一个地图坐标区域中的更多信息。地图信息解析器12对当前地图坐标区域的地图数据进行解析,提取的数据量小于第二阈值时,说明该区域内存在的地标较少,能够获取的信息也较少,则调度器13会增大步长,相当于缩小所显示的地图地标区域,从而能够快速地对这个区域进行地标信息的爬取。一般地,系统在对指定地图坐标范围内的第一个地图坐标区域进行地标信息爬取时,选择最小的步长,即相当于将该地图地标区域放大到最大,获取该区域中全部地标信息,在此基础上进行后续地图地标区域的地标信息爬取。[0053]或者,还可以结合坐标点地理位置信息进行坐标移动步长的调整。例如,若坐标点对应的区域是海域、山脉等没有建筑物的空旷区域,并且结果处理器15反馈提取的地标信息较少时,可以适当增大坐标移动步长;若坐标点对应的搜索区域有建筑物,并且结果处理器15反馈提取的地标信息较多,则适当减小坐标移动步长或保持原坐标移动步长。[0054]另外,可以根据地标信息的数据量和或坐标点的地理位置信息预先设置多个阈值,每个阈值区间对应一个坐标移动步长。[0055]调度器13向地图信息获取管理器11提供新的待抓取的地图坐标区域,返回步骤S23,直到完成指定的地图坐标范围的地标信息的爬取,此时结果集中的地图数据即为用户选择的在电子地图上搜索的坐标范围内与地标命名规则关键字相匹配的搜索结果。[0056]该搜索结果可以显示在电子显示屏幕上,供用户查看。该显示方式可以是在电子显示屏幕上显示搜索的坐标范围对应的电子地图,在电子地图上对应显示搜索结果;也可以以文本格式显示。[0057]以在电子地图上选定广州市的坐标范围、进行地标命名规则关键字为“学校”的地标信息爬取为例,对本发明实施例提出的爬取方法包含的步骤S23进行说明。[0058]在某个地图坐标区域内,地图信息获取管理器11在坐标(113.354389,23.142191处获得一个JSON格式地图数据如下:[0059]}[0060]}[0061]地图信息解析器12对上述内容进行解析,包括对相关网址进行访问,可以得到以下信息:[0062]学校:华南师范大学,[0063]城市:广州,[0064]地址:广州市天河区中山大道西55号,[0065]联系电话:020-85211114,[0066]由此,获得了地标信息“华南师范大学”相关信息。[0067]本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。[0068]计算机可读介质的更具体的示例非穷尽性列表包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒磁装置),随机存取存储器RAM,只读存储器ROM,可擦除可编辑只读存储器EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器CDROM。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。[0069]应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列PGA,现场可编程门阵列FPGA等。[0070]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0071]以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种在电子地图中爬取地标信息的系统,其特征在于:包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。2.根据权利要求1所述的系统,其特征在于:还包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域。3.根据权利要求2所述的系统,其特征在于:在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域。4.根据权利要求3所述的系统,其特征在于:调度器根据地图信息解析器解析提取的地标信息数据量确定坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器。5.根据权利要求4所述的系统,其特征在于:所述系统还包括存储器,存储预设的与地标信息数据量对应的多个阈值,每个阈值区间对应一个坐标移动步长。6.—种在电子地图中爬取地标信息的方法,其特征在于,该方法包括如下步骤:步骤S21:获取指定的地图坐标范围,并获取地标命名规则关键字;步骤S22:根据待抓取的地图坐标区域,获取待抓取的地图坐标区域的地图数据;步骤S23:对获取到的地图数据进行解析,提取地标信息;步骤S24:对提取的地标信息进行判断,将与地标命名规则关键字匹配的地标信息保存到结果集中;步骤S25:获取新的待抓取的地图坐标区域,返回步骤S23,直到完成指定地图坐标范围的地标信息的爬取。7.根据权利要求6所述的方法,其特征在于:步骤S25中,根据解析提取的地标信息数据量,进行坐标移动步长的调整。8.根据权利要求7所述的方法,其特征在于:步骤S25中,还结合坐标点地理位置信息进行坐标移动步长的调整。9.根据权利要求7所述的方法,其特征在于:根据解析提取的地标信息数据量和或坐标点地理位置信息,预先设置有多个阈值,每个阈值区间对应一个坐标移动步长。10.根据权利要求6所述的方法,其特征在于:在步骤S23中,对获取到的地图数据进行解析时,还获取其中的链接地址,通过访问链接地址提取其中的地标信息。

百度查询: 广州视源电子科技股份有限公司;广州视睿电子科技有限公司 一种在电子地图中爬取地标信息的系统和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。