买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】地名信息匹配方法、信息匹配方法、装置及计算机设备_贵州小爱机器人科技有限公司_201710458486.7 

申请/专利权人:贵州小爱机器人科技有限公司

申请日:2017-06-16

公开(公告)日:2024-03-29

公开(公告)号:CN109145095B

主分类号:G06F16/332

分类号:G06F16/332;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2020.05.08#实质审查的生效;2019.01.04#公开

摘要:本发明公开了一种地名信息匹配方法、信息匹配方法、装置及计算机设备,该方法包括:S1,获取文本信息对应的地名信息;S2,获取所述地名信息中最低层级的地名词;S3,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名。本发明准确的搜索匹配语义相同的地名,无需人工参与,节省了大量的人工成本,提高了准确率且减少了计算量,提高了服务效率。

主权项:1.一种地名信息匹配的方法,其特征在于,包括:S1,获取文本信息对应的地名信息;S2,获取所述地名信息中最低层级的地名词;S3,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名;其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名;得到所述文本信息对应的地名信息,包括:按照预定分词方法对所述文本信息进行分词处理,得到分词结果;对所述分词结果进行地名词性标注,得到地名词集;对所述地名词集进行命名实体识别,得到地名实体;将所述地名实体对应的地名词作为该地名实体的所述地名信息;所述实体识别的地名实体为包括一个地名词或多个地名词复合的地名信息;所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法;所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。

全文数据:地名信息匹配方法、信息匹配方法、装置及计算机设备技术领域本发明涉及通讯领域,特别是涉及一种地名信息匹配方法、信息匹配方法、装置及计算机设备。背景技术由于地名信息中存在大量的包括多个地名名词的复合地名,而有些地名信息中却只有一个地名名词“朝阳区”,如“北京市朝阳区”包括了“北京市”和“朝阳区”两个层级的地名名词,因此在做匹配的过程中,现有地名信息的匹配方法需要对“北京市”和“朝阳区”同时与地名数据库中的数据做匹配,增加了工作量,且由于地名数据库中的同一地名存储的地名名词数量与需匹配的地名名词数量不一致,极易出错,从文字层面直接匹配容易漏掉很多不同描述的地名。发明内容本发明提供一种地名信息匹配的方法、装置及计算机设备,用以解决现有技术的如下问题:地名信息匹配准确率低且工作量大的问题。为解决上述技术问题,一方面,本发明提供一种地名信息匹配的方法,其特征在于,包括:S1,获取文本信息对应的地名信息;S2,获取所述地名信息中最低层级的地名词;S3,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名。可选的,还包括:S4,在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词执行S3过程,直到搜索到相匹配的简化地名为止。可选的,S2包括:按照所述文本信息输入顺序将所述地名信息的地名词进行排列,得到所述地名词列表;若所述地名词为英文,则获取所述地名词列表中第一个地名词作为最低层级的地名词;若所述地名词为中文,则获取所述地名词列表中最后一个地名词作为最低层级的地名词。可选的,所述获取所述地名词的上一个层级的地名词,包括:若所述地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若所述地名词为中文,则获取地名词列表中当前地名词的上一个地名词,其中,所述地名词列表为按照所述文本信息输入顺序将所述地名信息的地名词进行排列而得。可选的,S3包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名。可选的,其特征在于,所述地名数据库中还包括所述最低层级的简化地名词对应的完整地名。可选的,得到所述文本信息对应的地名信息,包括:按照预定分词方法对所述文本信息进行分词处理,得到分词结果;对所述分词结果进行地名词性标注,得到地名词集;对所述地名词集进行命名实体识别,得到地名实体;将所述地名实体对应的地名词作为该地名实体的所述地名信息。可选的,所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。可选的,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。另一方面,本发明还提供了一种信息匹配的方法,包括:根据权利要求1至9中任一项所述的方法获取与所述地名信息相匹配的简化地名;其中,S1具体为:获取案情文本信息,得到所述案情文本信息对应的地名信息;还包括:根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括职能部门相关信息。可选的,所述根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之前,还包括:对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;获取所述案情文本信息中的案情类别相关文本信息;将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。所述分类算法包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。可选的,所述案情文本信息包括:录入录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入录入案情时发送的文本信息。可选的,根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之后,还包括以下一步或几步:将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;为所述案情文本信息对应的用户终端呼叫所述职能部门;将案情信息发送到所述职能部门的终端。另一方面,本发明还提供一种地名匹配的装置,包括:获取地名模块,用于获取文本信息对应的地名信息;最低层级地名获取模块,用于获取所述地名信息中最低层级的地名词;匹配模块,用于所述预设地名数据库中包括简化地名,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,所述简化地名为以最低层级的简化地名词命名的地名。可选的,所述匹配模块,具体还包括上一层级地名获取单元,用于在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词输入匹配模块,直到搜索到相匹配的简化地名为止。可选的,最低层级地名获取模块,包括:顺序排列单元,用于按照所述文本信息输入顺序将所述地名信息的地名词进行排列,得到所述地名词列表;首地名词识别单元,用于若所述地名词为英文,则获取所述地名词列表中第一个地名词作为最低层级的地名词;若所述地名词为中文,则获取所述地名词列表中最后一个地名词作为最低层级的地名词。可选的,所述上一层级地名获取单元,包括:语言层级地名词识别子单元,用于若所述地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若所述地名词为中文,则获取地名词列表中当前地名词的上一个地名词,其中,所述地名词列表为按照所述文本信息输入顺序将所述地名信息的地名词进行排列而得;循环匹配子单元,用于将获取到的所述地名词输入简化地名获取单元,直到搜索到相匹配的简化地名为止。可选的,执行简化地名获取单元时:根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名。可选的,所述地名数据库中还包括所述最低层级的简化地名词对应的完整地名。可选的,得到所述文本信息对应的地名信息,包括:按照预定分词方法对所述文本信息进行分词处理,得到分词结果;对所述分词结果进行地名词性标注,得到地名词集;对所述地名词集进行命名实体识别,得到地名实体;将所述地名实体对应的地名词作为该地名实体的所述地名信息。可选的,所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。可选的,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。另一方面,本发明还提供了一种信息匹配的装置,包括权利要求15至23中任一项所述的装置,其中,所述获取地名模块,用于获取案情文本信息,得到所述案情文本信息对应的地名信息;还包括:搜索模块,用于根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括职能部门相关信息。可选的,还包括:训练模块,用于对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;获取所述案情文本信息中的案情类别相关文本信息;将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。可选的,所述分类算法包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。可选的,所述案情文本信息包括:录入录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入录入案情时发送的文本信息。可选的,还包括:执行模块,用于将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;为所述案情文本信息对应的用户终端呼叫所述职能部门;将案情信息发送到所述职能部门的终端。另一方面,本发明还提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种地名信息匹配的方法的步骤。另一方面,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种地名信息匹配的方法的步骤。另一方面,本发明还提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种信息匹配的方法的步骤。另一方面,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种信息匹配的方法的步骤。本发明有益效果如下:本发明预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名,通过获取所述地名信息中最低层级的地名词获取所述地名信息中最低层级的地名词,以得到可与简化地名匹配的地名词,方便后续的匹配,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,实现了存在诸多不同地名名词组合的复合地名的情况下不需人工参与自动对地名进行语义识别,准确的搜索匹配语义相同的地名,无需人工参与,节省了大量的人工成本,提高了准确率且减少了计算量,提高了服务效率。附图说明图1是本发明第一实施例中地名信息匹配的方法的流程图;图2是本发明第二实施例中信息匹配的方法的流程图;图3是本发明第三实施例中地名匹配的装置的结构示意图;图4是本发明第四实施例中信息匹配的装置的结构示意图;图5是本发明第四实施例中计算机设备匹配信息的流程图。具体实施方式为了解决现有技术的如下问题:地名信息匹配准确率低和工作量大的问题;本发明提供了一种地名信息匹配的方法、装置及计算机设备,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。本发明第一实施例提供了一种地名信息匹配的方法,在根据预设语义相似度算法在预设地名数据库中搜索与地名信息相匹配的地名时,由于地名信息通常情况下可能包括多个地名词,可以采用地名信息与地名数据库中的简化地名来匹配,此处的简化地名为以最低层级的简化地名词命名的地名。所以,在实现时,需要根据文本信息的语言情况来确定先识别哪个地名词,具体方法如下:该方法的流程如图1所示,包括步骤S101至S103:S101,获取文本信息对应的地名信息;S102,获取所述地名信息中最低层级的地名词;S103,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名。优选的,还包括S104,在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词执行S103过程,直到搜索到相匹配的简化地名为止。S101,获取文本信息对应的地名信息,具体包括:按照预定分词方法对文本信息进行分词处理,得到分词结果,再对分词结果进行地名词性标注,得到地名词集,例如,词性为ns的就是地名;上述过程中,分词是和词性标注一起进行的,词性标注是把分词词典中标示的每个词的词性标到分词结果里。随后,对地名词集进行命名实体识别,得到地名实体,再将地名实体对应的地名词作为该地名实体的地名信息。实现时,地名信息里可能包括一个或多个复合地名词,当包括多个复合地名词时,例如,上海市嘉定区金沙江西路,包括三个地名词,但所指为一个地名,因此需要通过实体识别得到,实体识别得到的地名实体为包括一个地名词或多个地名词复合的地名信息。其中,预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。所述地名数据库中还可以包括所述最低层级的简化地名词对应的完整地名。通过上述过程,就可以从获取到的文本信息中得到文本信息涉及到的地名信息,为地名的匹配提供了坚实基础。具体的,S103的分别计算地名词与预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与地名信息相匹配的地名。实现的过程中,在根据预设语义相似度算法在预设地名数据库中搜索与地名信息相匹配的地名时,可以分别计算地名信息与预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与地名信息相匹配的地名。其中,简化地名为以最低层级的简化地名词命名的地名或为完整地名,当简化地名为完整地名时,可以用完整地名信息与简化地名做相似度计算。S102具体包括:按照文本信息输入顺序将地名信息的地名词进行排列,得到地名词列表;若地名词为英文,则获取地名词列表中第一个地名词作为最低层级的地名词;若地名词为中文,则获取地名词列表中最后一个地名词作为最低层级的地名词;S104中,获取地名词的上一个等级的地名词,包括:若地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若地名词为中文,则获取地名词列表中当前地名词的上一个地名词。例如,当地名信息为北京市海淀区中关村第三小学时,则该地名信息对应的多个地名词依次为“北京市,海淀区,中关村第三小学”,则在进行匹配时,从“中关村第三小学”这个地名词开始进行地名匹配,如果“中关村第三小学”这个地名词没有匹配到地名,则再使用“海淀区”进行匹配。当地名信息为“BaihuaSilu,FutianDistrict,ShenzhenCity,GuangdongProvince”时,则该地名信息对应的多个地名词依次为“BaihuaSilu,FutianDistrict,ShenzhenCity,GuangdongProvince”,则在进行匹配时,从“BaihuaSilu”这个地名词开始进行地名匹配,如果“BaihuaSilu”这个地名词没有匹配到地名,则再使用“FutianDistrict”进行匹配,如果“FutianDistrict”没有匹配到,则再使用“ShenzhenCity”进行匹配。由于中文和英文对地名信息表述方式不同,即中文习惯按照省市县等由大到小顺序播报或记录地名信息,英文习惯按照县市省等由小到大顺序播报或记录地名信息,所以,本实施例针对不同语言需要执行不同的匹配方式,以便能够灵活的适用语言的类型,增强系统的性能。在上述一种地名信息匹配的方法实施例的基础上,下面为本发明还涉及一种信息匹配的方法的实施例,包括:S201,获取案情文本信息,得到案情文本信息对应的地名信息;S202,获取所述地名信息中最低层级的地名词。该步骤的实施方式和有益效果同一种地名信息匹配的方法实施例的S102,在此不再赘述。S203,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名。该步骤的实施方式和有益效果同一种地名信息匹配的方法实施例的S103,在此不再赘述。S204,根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括:职能部门的相关信息。优选的,S203之后,S205之前,还包括S205,在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词执行S103过程,直到搜索到相匹配的简化地名为止。该步骤的实施方式和有益效果同一种地名信息匹配的方法实施例的S104,在此不再赘述。本发明实施例获取的案情文本信息可以为市政服务系统的案情文本信息,以得到案情文本信息对应的地名信息,根据预设语义相似度算法在预设地名数据库中搜索与地名信息相匹配的地名,并结合预先输入的案情类别来搜索案情文本信息对应的职能部门,整个过程自动确定地名信息,自动匹配地名,自动搜索职能部门,无需人工参与,节省了大量的人工成本,用户可以较为快速的获取到案情内容的回馈,提高了服务效率,特别是在市政服务系统领域应用在有利于市政建设,解决了现有技术的如下问题:现有服务系统工作时,全程都需要人工参与,人工成本较高,特别是对于市政服务,市政服务效率较低,不利于市政建设。S203之前,还包括:S2031,对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;S2032,获取所述案情文本信息中的案情类别相关文本信息;S2033,将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。其中,分类算法包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。优选的,所述案情文本信息包括:录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入案情时发送的文本信息。优选的,S204之后,还包括以下一步或几步:S204A,将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;S204B,为所述案情文本信息对应的用户终端呼叫所述职能部门;S204C,将案情信息发送到所述职能部门的终端。在根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之前,还可以对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,训练样本集包括多个案情类别的样本;获取案情文本信息中的案情类别相关文本信息;将案情类别相关文本信息输入案情类别分类器,得到预先输入的案情类别。通过上述过程,就可以快速的获取到输入的案情类别,以便进行职能部门的匹配。由于使用服务系统案情的用户不同,因此,案情方式也不同;有的可能通过电话呼叫案情,例如,在发生打架斗殴事件需要报警时,则可能市民用户会选择通过电话主叫呼入市政服务系统;有的可能通过发送信息进行案情,例如,当市民用户想要反应某一区域垃圾处理问题,想知道该问题归哪里负责时,则由于该问题不是迫切需要解决,因此,可能会通过向服务系统发送短信等方式案情。因此,本发明实施例在获取案情文本信息时,案情文本信息可以包括录入案情时呼入电话的语音数据转换后对应的文本信息,或者是录入案情时发送的文本信息。这样,无论用户通过哪种方式进行案情,都可以获取到对应的案情文本信息,系统处理性能增强。当已经匹配到对应的地名后,就可以结合用户预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括:职能部门的相关信息。对于该预设映射数据库,其存储着本市各个地区内各个职能部门的相关信息,比如,职能部门,坐落位置,职责等。在根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之后还包括以下一步或几步:可以将职能部门的电话反馈至案情文本信息对应的用户终端;为用户终端呼叫职能部门;将案情信息发送到所述职能部门的终端。如果市民用户是通过呼入服务系统的方式案情,则可以直接在电话内将对应职能部门的电话进行语音播报,也可以直接为用户转接呼入电话带对应的职能部门;如果用户是通过向服务系统发送信息的方式案情,则可以以信息的方式向用户终端发送对应职能部门的电话。本发明第二实施例提供了一种匹配职能部门的装置,该装置的结构示意如图2所示,包括:获取地名模块10,用于获取文本信息对应的地名信息;最低层级地名获取模块11,与获取地名模块10耦合,用于获取所述地名信息中最低层级的地名词;匹配模块12,与最低层级地名获取模块11耦合,用于所述预设地名数据库中包括简化地名,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,所述简化地名为以最低层级的简化地名词命名的地名。所述匹配模块10,具体还包括上一层级地名获取单元,用于在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词输入匹配模块,直到搜索到相匹配的简化地名为止。通过上述过程,就可以从获取到的文本信息中得到文本信息涉及到的地名信息,为地名的匹配提供了坚实基础。优选的,最低层级地名获取模块11,包括:顺序排列单元,用于按照所述文本信息输入顺序将所述地名信息的地名词进行排列,得到所述地名词列表;首地名词识别单元,用于若所述地名词为英文,则获取所述地名词列表中第一个地名词作为最低层级的地名词;若所述地名词为中文,则获取所述地名词列表中最后一个地名词作为最低层级的地名词。在一实施例中,所述上一层级地名获取单元,包括:语言层级地名词识别子单元,用于若所述地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若所述地名词为中文,则获取地名词列表中当前地名词的上一个地名词,其中,所述地名词列表为按照所述文本信息输入顺序将所述地名信息的地名词进行排列而得。本实施例可以针对不同案情语言需要执行不同的匹配方式,以便能够灵活的适用案情语言的类型。循环匹配子单元,用于将获取到的所述地名词输入简化地名获取单元,直到搜索到相匹配的简化地名为止。在一实施例中,执行简化地名获取单元时:根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名。在一实施例中,所述地名数据库中还包括所述最低层级的简化地名词对应的完整地名。在一实施例中,得到所述文本信息对应的地名信息,包括:按照预定分词方法对所述文本信息进行分词处理,得到分词结果;对所述分词结果进行地名词性标注,得到地名词集;对所述地名词集进行命名实体识别,得到地名实体;将所述地名实体对应的地名词作为该地名实体的所述地名信息。获取地名模块10具体包括分词单元、词性标注单元和实体识别单元。其中,分词单元,用于用于按照预定分词方法对案情文本信息进行分词处理,得到分词结果。例如,词性为ns的就是地名;上述过程中,分词是和词性标注一起进行的,词性标注是把分词词典中标示的每个词的词性标到分词结果里。上述预定分词方法可以是多种,例如,字典双向最大匹配法、HMM方法或CRF方法等。词性标注单元,用于对分词结果进行地名词性标注,得到地名词集;对地名词集进行命名实体识别,得到地名实体。实体识别单元,用于对所述地名词集进行命名实体识别,得到地名实体,将所述地名实体对应的地名词作为该地名实体的所述地名信息。实现时,地名信息里可能包括一个或多个复合地名词,当包括多个复合地名词时,例如,上海市嘉定区金沙江西路,包括三个地名词,但所指为一个地名,因此需要通过实体识别得到,实体识别得到的地名实体为包括一个地名词或多个地名词复合的地名信息。在一实施例中,所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。优选的,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。在上述一种地名匹配装置的实施例的基础上,本发明提供的一种信息匹配的装置,其区别在于,需要获取案情文本信息,并通过匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息。获取地名模块10,进一步用于:获取案情文本信息,得到所述案情文本信息对应的地名信息;该装置除了一种地名匹配的装置的实施例中的装置,还进一步包括:搜索模块13,与匹配模块12耦合,用于根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括职能部门相关信息。优选的还包括:训练模块14,用于对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;获取所述案情文本信息中的案情类别相关文本信息;将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。其中,所述分类算法可以包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。优选的所述案情文本信息包括:录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入案情时发送的文本信息。在一实施例中还包括:执行模块,用于将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;为所述案情文本信息对应的用户终端呼叫所述职能部门;将案情信息发送到所述职能部门的终端。由于报案的用户不同,因此,案情获取方式也不同;有的可能通过电话呼叫获取案情,例如,在发生打架斗殴事件需要报警时,则可能市民用户会选择通过电话主叫呼入市政服务系统;有的可能通过发送信息进行案情的获取,例如,当市民用户想要反应某一区域垃圾处理问题,想知道该问题归哪里负责时,则由于该问题不是迫切需要解决,因此,可能会通过向服务系统发送短信等方式录入案情。因此,上述案情文本信息可以是录入案情时呼入电话的语音数据转换后对应的文本信息,或者是录入案情时发送的文本信息。这样,无论用户通过哪种方式进行案情获取,都可以获取到对应的案情文本信息,系统处理性能增强。本发明实施例上述整个过程自动确定地名信息,自动匹配地名,自动搜索职能部门,无需人工参与,节省了大量的人工成本,市民可以较为快速的获取到案情内容的回馈,提高了服务效率,有利于市政建设,解决了现有技术的如下问题:现有服务系统工作时,全程都需要人工参与,人工成本较高,特别是对于市政服务,市政服务效率较低,不利于市政建设。上述装置还可以包括:执行模块,与搜索模块耦合,用于将职能部门的电话反馈至案情文本信息对应的用户终端,为用户终端呼叫职能部门,和或,将案情信息发送到所述职能部门的终端。如果市民用户是通过呼入服务系统的方式案情,则可以直接在电话内将对应职能部门的电话进行语音播报,也可以直接为用户转接呼入电话带对应的职能部门;如果用户是通过向服务系统发送信息的方式案情,则可以以信息的方式向用户终端发送对应职能部门的电话。本发明第三实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一实施例的一种地名信息匹配的方法。实现时,上述计算机程序可以存储在计算机存储介质中。本发明第三实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第二实施例的一种信息匹配的方法。实现时,上述计算机程序可以存储在计算机存储介质中。例如,处理器执行计算机程序时实现图3的如下过程:S1,获取案情文本信息。该过程中,还可以根据案情文本信息确定问题类别或投诉内容等信息。S2,对案情文本信息进行分词、词性标注、命名实体识别NER,NamedEntityRecognition、地名信息提取。S3,判断地名数据库中是否存在与地名信息匹配度达到预设匹配度的地名。在存在的情况下,执行S4,否则执行S6。S4,根据地名词和案情文本信息中的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括:职能部门的相关信息。S5,将搜索到的职能部门反馈至市民用户。S6,按照顺序查找地名信息中的下一个地名词,返回S3。其中,该顺序可能是地名信息顺序方式或地名信息的倒序方式。例如,当市民用户电话呼入案情“北京市海淀区中关村第三小学附近有交通事故”时,则地名信息为北京市海淀区中关村第三小学,则该地名信息对应的多个地名词依次为“北京市,海淀区,中关村第三小学”,对应的案情类别就是交通、突发事故类,则在查找智能部门时,可以匹配到交警部门,则可以为市民用户提供中关村第三小学附近交警部门的电话,以便及时处理问题。本实施例人工本系统能够实现市政案情的自动流转,提高市政服务效率,降低人工成本。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器ROM,Read-OnlyMemory、随机存取存储器RAM,RandomAccessMemory、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

权利要求:1.一种地名信息匹配的方法,其特征在于,包括:S1,获取文本信息对应的地名信息;S2,获取所述地名信息中最低层级的地名词;S3,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,其中,所述预设地名数据库中包括简化地名,所述简化地名为以最低层级的地名词命名的地名。2.如权利要求1所述的方法,其特征在于,还包括:S4,在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词执行S3过程,直到搜索到相匹配的简化地名为止。3.如权利要求1所述的方法,其特征在于,S2包括:按照所述文本信息输入顺序将所述地名信息的地名词进行排列,得到所述地名词列表;若所述地名词为英文,则获取所述地名词列表中第一个地名词作为最低层级的地名词;若所述地名词为中文,则获取所述地名词列表中最后一个地名词作为最低层级的地名词。4.如权利要求2所述的方法,其特征在于,所述获取所述地名词的上一个层级的地名词,包括:若所述地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若所述地名词为中文,则获取地名词列表中当前地名词的上一个地名词,其中,所述地名词列表为按照所述文本信息输入顺序将所述地名信息的地名词进行排列而得。5.如权利要求1所述的方法,其特征在于,S3包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名。6.如权利要求1所述的方法,其特征在于,所述地名数据库中还包括所述最低层级的简化地名词对应的完整地名。7.如权利要求1所述的方法,其特征在于,得到所述文本信息对应的地名信息,包括:按照预定分词方法对所述文本信息进行分词处理,得到分词结果;对所述分词结果进行地名词性标注,得到地名词集;对所述地名词集进行命名实体识别,得到地名实体;将所述地名实体对应的地名词作为该地名实体的所述地名信息。8.如权利要求1所述的方法,其特征在于,所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。9.如权利要求1所述的方法,其特征在于,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。10.一种信息匹配的方法,其特征在于,包括:根据权利要求1至9中任一项所述的方法获取与所述地名信息相匹配的简化地名;其中,S1具体为:获取案情文本信息,得到所述案情文本信息对应的地名信息;还包括:根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括职能部门相关信息。11.如权利要求10所述的方法,其特征在于,所述根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之前,还包括:对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;获取所述案情文本信息中的案情类别相关文本信息;将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。12.如权利要求11所述的方法,其特征在于,所述分类算法包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。13.如权利要求10所述的方法,其特征在于,所述案情文本信息包括:录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入案情时发送的文本信息。14.如权利要求10所述的方法,其特征在于,根据匹配到的地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息之后,还包括以下一步或几步:将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;为所述案情文本信息对应的用户终端呼叫所述职能部门;将案情信息发送到所述职能部门的终端。15.一种地名匹配的装置,其特征在于,包括:获取地名模块,用于获取文本信息对应的地名信息;最低层级地名获取模块,用于获取所述地名信息中最低层级的地名词;匹配模块,用于所述预设地名数据库中包括简化地名,根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,所述简化地名为以最低层级的简化地名词命名的地名。16.如权利要求15所述的装置,其特征在于,所述匹配模块,具体还包括上一层级地名获取单元,用于在未搜索到相匹配的地名的情况下,获取所述地名词的上一个层级的地名词,并根据获取到的所述地名词输入匹配模块,直到搜索到相匹配的简化地名为止。17.如权利要求15所述的装置,其特征在于,最低层级地名获取模块,包括:顺序排列单元,用于按照所述文本信息输入顺序将所述地名信息的地名词进行排列,得到所述地名词列表;首地名词识别单元,用于若所述地名词为英文,则获取所述地名词列表中第一个地名词作为最低层级的地名词;若所述地名词为中文,则获取所述地名词列表中最后一个地名词作为最低层级的地名词。18.如权利要求16所述的装置,其特征在于,所述上一层级地名获取单元,包括:语言层级地名词识别子单元,用于若所述地名词为英文,则获取地名词列表中当前地名词的下一个地名词;若所述地名词为中文,则获取地名词列表中当前地名词的上一个地名词,其中,所述地名词列表为按照所述文本信息输入顺序将所述地名信息的地名词进行排列而得;循环匹配子单元,用于将获取到的所述地名词输入简化地名获取单元,直到搜索到相匹配的简化地名为止。19.如权利要求15所述的装置,其特征在于,执行简化地名获取单元时:根据所述地名词按预设语义相似度算法在预设地名数据库中搜索与获取到的所述地名信息相匹配的简化地名,包括:分别计算所述地名词与所述预设地名数据库中各简化地名的语义相似度,将大于预设相似度阈值且最大的语义相似度对应的简化地名作为与所述地名信息相匹配的地名。20.如权利要求15所述的装置,其特征在于,所述地名数据库中还包括所述最低层级的简化地名词对应的完整地名。21.如权利要求15所述的装置,其特征在于,获取地名模块,包括:分词单元,用于按照预定分词方法对所述文本信息进行分词处理,得到分词结果;词性标注单元,用于对所述分词结果进行地名词性标注,得到地名词集;实体识别单元,用于对所述地名词集进行命名实体识别,得到地名实体,将所述地名实体对应的地名词作为该地名实体的所述地名信息。22.如权利要求15所述的装置,其特征在于,所述预定分词方法至少包括以下之一:字典双向最大匹配法,HMM方法和CRF方法。23.如权利要求15所述的装置,其特征在于,所述文本信息包括:用户输入的语音数据转换后对应的文本信息,或者,用户输入的文本信息。24.一种信息匹配的装置,其特征在于,包括权利要求15至23中任一项所述的装置,其中,所述获取地名模块,用于获取案情文本信息,得到所述案情文本信息对应的地名信息;还包括:搜索模块,用于根据匹配到的简化地名和预先输入的案情类别到预设映射数据库中搜索对应的映射信息,所述映射信息包括职能部门相关信息。25.如权利要求24所述的装置,其特征在于,还包括:训练模块,用于对预设的案情类别训练样本集采用分类算法训练,得到案情类别分类器,其中,所述训练样本集包括多个案情类别的样本;获取所述案情文本信息中的案情类别相关文本信息;将所述案情类别相关文本信息输入所述案情类别分类器,得到所述预先输入的案情类别。26.如权利要求25所述的装置,其特征在于,所述分类算法包括以下一种或几种:朴素贝叶斯NB分类算法、支持向量机SVM分类算法、K最邻近KNN分类算法和随机森林分类算法。27.如权利要求24所述的装置,其特征在于,所述案情文本信息包括:录入案情时呼入电话的语音数据转换后对应的文本信息,或者,录入案情时发送的文本信息。28.如权利要求24所述的装置,其特征在于,还包括:执行模块,用于将所述职能部门的电话反馈至所述案情文本信息对应的用户终端;为所述案情文本信息对应的用户终端呼叫所述职能部门;将案情信息发送到所述职能部门的终端。29.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。30.一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。31.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求10至14中任一项所述方法的步骤。32.一种计算机设备,包括存储器、处理器及存储在存储器上并可以在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求10至14中任一项所述方法的步骤。

百度查询: 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。