首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】地址归一化处理方法及装置_电信科学技术第十研究所有限公司_202011397609.9 

申请/专利权人:电信科学技术第十研究所有限公司

申请日:2020-12-02

公开(公告)日:2024-05-17

公开(公告)号:CN112487122B

主分类号:G06F16/29

分类号:G06F16/29;G06F16/21

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2021.03.30#实质审查的生效;2021.03.12#公开

摘要:本发明一种地址归一化处理方法及装置,该方法包括:获取多种地址数据源,地址数据源包括多个与目标地址对应的原始地址;对各地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;对各初步治理后的原始地址进行网络爬取,得到与初步治理后的原始地址对应的网爬经纬度;根据网爬经纬度,对各初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。本发明基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。

主权项:1.一种地址归一化处理方法,其特征在于,包括:获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库;所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:对各所述地址数据源中每个原始地址进行字段抽取,并对抽取的字段进行合法性和正确性进行验证,以及对通过验证的抽取字段中包含的特殊字符进行处理,得到初步治理后的原始地址;所述根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库,包括:对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。

全文数据:

权利要求:

百度查询: 电信科学技术第十研究所有限公司 地址归一化处理方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。