买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于图结构的地名地址的解析方法_速度时空信息科技股份有限公司_202010271555.5 

申请/专利权人:速度时空信息科技股份有限公司

申请日:2020-04-09

公开(公告)日:2021-01-12

公开(公告)号:CN111191084B

主分类号:G06F16/901(20190101)

分类号:G06F16/901(20190101);G06F16/904(20190101);G06F16/29(20190101);G06F40/289(20200101);G06F40/295(20200101)

优先权:

专利状态码:有效-授权

法律状态:2021.01.12#授权;2020.06.16#实质审查的生效;2020.05.22#公开

摘要:本发明公开了一种基于图结构的地名地址的解析方法,具体包括以下步骤:S1定义地名地址图模型,用以表达地名地址的路径图;S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库地名地址全文索引数据库,分别用于表达地名地址空间数据、地名地址路径图和地名地址全文索引,并将所述地名地址空间数据数据库和地名地址路径图数据库合并;S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文索引获取候选路径,然后在地名地址图数据库中进行路径匹配;从而实现快速准确地解析地名地址,且具有更好的解析广度。

主权项:1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:S1定义地名地址图模型,用以表达地名地址的路径图;S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,分别用于表达地名地址路径图、地名地址空间数据和地名地址全文索引,并将所述地名地址空间数据库和地名地址路径图数据库合并;S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析;所述步骤S2具体包括以下步骤:S21构建地名地址路径图数据库:基于兼容步骤S1定义的所述地名地址图模型,根据基底地名地址构建所述地名地址路径图数据库,所述地名地址路径图数据库包括主干地名地址图结构和外部地名地址图结构;S22构建地名地址空间数据数据库:根据基底地名地址的要素信息以及空间网络模型进行空间索引,将R树和网络拓扑索引树合并入所述地名地址路径图数据库;S23构建地名地址全文索引内容数据库:构建地名地址文本的全文索引,针对地名地址的通名、专名、拼音、类型进行全文检索;S24将合并后的地名地址路径图数据库和地名地址空间数据数据库与所述地名地址全文索引数据库的同一地名地址进行双向关联,当出现数据不一致时,以所述地名地址空间数据数据库作为数据一致性的基准;解析的遍历过程以所述地名地址路径图数据库及与其合并的所述地名地址空间数据数据库为核心;所述步骤S3基于地名地址图结构的解析方法包括分词及命名实体识别,全文检索获取候选路径,在所述地名地址图数据库中进行路径匹配;具体包括以下步骤:S31地名地址进行分词及命名实体识别:采用自然语言处理的规则方法或机器学习方向进行分词及命名实体识别;针对分词及命名实体识别的模型训练,通过S21地名地址路径图数据库的遍历生成地名地址组合作为语料,支撑训练模型对于长文本信息的建模;分词及命名实体识别获取待解析的N个地名地址候选分词结果Si=SP1|SP2|...|SPm,对应置信度为SCi;S32全文索引获取候选路径:对每个地名地址候选分词结果Si中含文本描述的地名SPj在所述地名地址全文索引数据库中进行全文检索,获取候选地名地址的ID集合IDSj,构建候选地名地址路径集合PSi=IDS1-IDS2-...-IDS,其中地名为ID集合,地址仍为数字符号;-表示路径走向集合,所有的候选路径为前后IDS的笛卡尔积;S33在所述地名地址图数据库中进行路径匹配:对每个候选地名地址路径集合PSi,在所述地名地址路径图数据库中进行路径匹配,根据地名地址的领域特点,采用路径匹配算法计算匹配度,从而获得解析匹配度;所述步骤S33采用路径匹配算法计算匹配度的过程为:S331遍历入口选择:将所述外部地名地址作为入口,或以骨架地名作为入口进行双向遍历;S332遍历过程策略:从入口节点开始进行双向遍历,当前序遍历无法匹配时,则后续遍历停止;对于有多个入口节点并行遍历,支持路径匹配Map-Reduce方法;在遍历过程中若涉及空间关系,则采用显性保存的空间关系路径,反之则进入所述地名地址空间数据数据库的空间索引树继续遍历;遍历之前先做全文检索,或延迟至遍历过程中进行单个地名地址节的全文检索,即在前序或后续遍历时,根据对应分词文本,实时获取候选地名地址节,并进行过滤;S333遍历结果匹配度计算:针对每个所述候选地名地址路径集合PSi的每条所述地名地址路径,根据其在所述地名地址路径图数据库中遍历匹配的路径长度以及中间关系间隔设置匹配度PM,并结合对应置信度SCi加权作为解析结果的匹配度。

全文数据:

权利要求:

百度查询: 速度时空信息科技股份有限公司 一种基于图结构的地名地址的解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。