买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于流动人口数据特征聚类的城市集聚效应可视分析方法_重庆邮电大学_202210193379.7 

申请/专利权人:重庆邮电大学

申请日:2022-03-01

公开(公告)日:2024-03-22

公开(公告)号:CN114661393B

主分类号:G06F9/451

分类号:G06F9/451;G06F18/23213;G06Q10/063;G06Q50/26

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要:本发明请求保护一种基于流动人口数据特征聚类的城市集聚效应可视分析方法,该方法包括:S1:转换原始数据集d1的格式,统一数据项中包含的所有地理位置和经纬度坐标;S2:利用先验知识筛选出数据集中的相关数据项构成新的数据集d2;S3:对属于城市群中的城市的地理坐标进行DBSCAN密度聚类;S4:对数据集d2中所有城市的流入人口中第三产业所占的百分比进行K‑Means聚类;S5:将两次聚类结果标记在数据集d2、d3中;S6:将数据集d2、d3在前端页面使用ECharts图表库可视化展示并添加鼠标交互;S7:分析中心城市的辐射能力,使用引力模型分析城市之间的联系。本发明提出了一种新的可视化方法来判断城市群集聚效应的强弱,并且对于全国范围内的城市都可适用。

主权项:1.基于流动人口数据特征聚类的城市集聚效应可视分析方法,其特征在于,包括以下步骤:S1:输入原始流动人口动态监测数据集d1,将原始数据集d1的.dta格式数据,转换成csv或者json格式文件,将每一条数据的流入地、流出地、户籍地地理位置信息统一成经纬度坐标,写入到数据集d1中;S2:利用先验知识筛选出数据集中的相关价值数据项构成新的数据集d2;S3:提取出全国所有城市群中的城市的经纬度坐标形成数据集d3,对d3进行DBSCAN密度聚类,该算法有两个参数:半径eps和密度阈值MinPts;S4:对数据集d2中所有城市的流入人口中第三产业所占的百分比进行K-Means聚类;S5:将两次聚类结果标记在数据集d2、d3中;S6:将数据集d2、d3在前端页面使用ECharts图表库可视化展示并添加鼠标交互;S7:分析中心城市的辐射能力,使用引力模型分析城市之间的联系;所述步骤S2具体包括:筛选出数据集d1中有价值的数据项,有价值的数据项包括:流入地、职业、所属产业、薪资、当地交通评价、社区生活评价在内的数据,构成新的数据集d2;所述步骤S3中,提取出全国所有城市群中的城市的经纬度坐标形成数据集d3,对d3进行DBSCAN密度聚类,该算法有两个参数:半径eps和密度阈值MinPts,具体步骤为:1以每一个数据点xi为圆心,以eps为半径画一个圆圈,这个圆圈被称为xi的eps邻域;对这个圆圈内包含的点进行计数,如果一个圆圈里面的点的数目超过了密度阈值MinPts,那么将该圆圈的圆心记为核心点,又称核心对象;2如果某个点的eps邻域内点的个数小于密度阈值但是落在核心点的邻域内,则称该点为边界点;既不是核心点也不是边界点的点,就是噪声点;核心点xi的eps邻域内的所有的点,都是xi的直接密度直达;3如果xj由xi密度直达,xk由xj密度直达…xn由xk密度直达,那么,xn由xi密度可达,这个性质说明了由密度直达的传递性,推导出密度可达;4如果对于xk,使xi和xj都由xk密度可达,那么,就称xi和xj密度相连,将密度相连的点连接在一起,就形成了聚类簇;所述DBSCAN算法处理后的聚类样本点分为:核心点corepoints,边界点borderpoints和噪声点noise,这三类样本点的定义如下:核心点:对于数据集d3,若样本p的ε邻域内至少包含MinPts个样本,包括样本p,那么称样本p为核心点,核心点p的ε邻域内的样本数量满足:Nεp≥MinPts其中ε邻域中任一点q与核心点p的距离为distp,q,则Nεp的表达式为:Nεp={q∈d3|distp,q≤ε}边界点:对于非核心点的样本b,若b在任意核心点p的ε邻域内,那么样本b称为边界点,即: 噪声点:对于非核心点的样本n,若n不在任意核心点p的ε邻域内,那么样本n称为噪声点,即: 只要任意两个样本点是密度直达或密度可达的关系,那么该两个样本点归为同一簇类;因此,DBSCAN算法从数据集d3中随机选择一个核心点作为“种子”,由该种子出发确定相应的聚类簇,当遍历完所有核心点时,算法结束,得到聚类结果;所述步骤S4中对数据集d2中所有城市的流入人口中第三产业所占的百分比进行K-Means聚类,具体包括:计算属于第三产业的人数的百分比,使用K-Means聚类将百分比的区间分成4类,范围从大到小分别代表核心城市、二级城市、三级城市、普通城市,具体步骤如下:1开始时选择4个类的初始中心,在第k次迭代中,对任意一个样本,求其到4个中心的距离;2将该样本归到距离最短的中心所在的类,利用均值在内的方法更新该类的中心值;3对于所有的4个聚类中心,如果经过上述迭代法更新后,值保持不变,则迭代结束;否则,则继续迭代,最后得到聚类结果;所述步骤S6中,使用Django框架,将后端数据在前端使用Echarts图标库进行可视化,修改图表库中China.js中的属性,使之能可视化出中国地图上每个省份、城市、区县的边界,添加鼠标圈选和图表联动功能;所述步骤S7分析中心城市的辐射能力,使用引力模型分析城市之间的联系,具体包括:对鼠标在地图上选中的范围,根据K-Means聚类结果分析该范围的中心城市的经济带动能力,判别该城市的类型,在哪种产业上比较强,有何短板;将DBSCAN聚类结果跟实际城市群分布进行对比,分析城市群形成的隐藏条件;使用引力模型,判断鼠标选中的范围内流动人员来往强弱,用i、j分别表示两个城市或地区,使用引力模型来表示区域联系;所述使用引力模型来表示区域联系,其表达式为: Iij为两个城市或地区的联系引力值,Qi、Qj为两个城市或地区的来往人数,Dij为城市间的直线距离,g为城市间的引力调节系数,调节该参数来优化可视化效果,区域之间用连线的粗细表示强弱,引力值越大,区域联系越强。

全文数据:

权利要求:

百度查询: 重庆邮电大学 基于流动人口数据特征聚类的城市集聚效应可视分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。