买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于GPS轨迹数据的出行方式识别方法_上海交通大学_201710537038.6 

申请/专利权人:上海交通大学

申请日:2017-07-04

公开(公告)日:2020-07-31

公开(公告)号:CN107330469B

主分类号:G06K9/62(20060101)

分类号:G06K9/62(20060101);G06Q50/30(20120101);G01S19/42(20100101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.31#授权;2017.12.01#实质审查的生效;2017.11.07#公开

摘要:本发明公开了一种基于GPS轨迹数据的出行方式识别方法,对于GPS信号缺失和信号不完整的出行方式,采用基于规则的地铁识别方法;对于GPS信号记录正常的其他出行方式采用随机森林分类器,结合GPS轨迹数据进行建模与验证。在进行方式识别前,特征选择过程筛选出4类与方式识别相关的特征参数,可以精确识别出所有的真实出行方式。该方法不受GPS数据限制,不依赖其他数据来源,通用性高,计算简单,识别结果准确可靠,适用于基于GPS轨迹数据的出行方式识别,有利于推动基于智能手机的出行调查的大规模推广。

主权项:1.一种基于GPS轨迹数据的出行方式识别方法,其特征在于:根据GPS信号分三种情况,GPS信号缺失,GPS信号不完整,GPS信号正常;a.GPS信号缺失,基于规则的地铁单方式出行的识别方法:1地铁单方式段持续时间大于5分钟;2GPS轨迹点的最大速度小于地铁最高速度;3地铁单方式段的起点与最近的地铁出入口之间的距离小于100米;4地铁单方式段的终点与最近的地铁出入口之间的距离小于200米;b.GPS信号不完整,基于规则的地铁单方式的识别方法:1满足所述的GPS信号缺失,基于规则的地铁单方式段出行的识别方法的所有要求;2除起点和终点外的所有GPS轨迹点与最近的地铁线路之间的距离小于30米;c.GPS信号正常的其他出行方式采用随机森林分类器,包括以下步骤:第一步、GPS轨迹数据准备:采集的GPS轨迹数据包括:用户编号、定位日期、时间、经度、纬度、速度、海拔、方向和定位卫星数,根据用户编号,GPS轨迹数据按照时间顺序分配到每个人每天的出行,即摘取每人每天的出行轨迹点并进行相关参数的计算,1计算每个点瞬时速度;2计算每个点瞬时加速度;3计算每个点方向变化值;4计算特征参数:计算每个单方式出行段的速度、加速度、方向变化和距离出行时长4个方面的特征作为方式识别的输入参数;第二步、特征参数筛选:将第一步数据作为全样本输入Weka进行参数筛选,使用不同的搜索方法和相应的评估策略来搜索,直至找出使得全样本出行方式分类最佳的组合,筛选出7个显著特征参数:出行距离,平均速度,50分位速度S50,75分位速度S75,95分位速度S95,平均方向变化量和速度偏度;第三步、随机森林分类器出行方式识别:按照第2步筛选的特征参数整理每个单方式出行段,这样得到每个单方式出行段的特征参数集,使用WekaExplorer的分类功能,系统随机把所有样本分为60%和40%两部分,60%的样本用于建模训练,40%的样本用于验证测试。

全文数据:一种基于GPS轨迹数据的出行方式识别方法技术领域[0001]本发明涉及计算机识别技术,尤其涉及一种基于GPS轨迹数据的出行方式识别方法。背景技术[0002]随着智能手机的普及和GPS定位技术的发展,基于智能手机的GPS出行调查得到了越来越多的关注,该方法可以弥补许多传统居民出行调查中的不足,采集的数据精确、操作简单、调查者负担小等等。[0003]采集到的GPS轨迹数据需要经过特定的算法处理才能得到出行研究所需的信息。出行方式的识别就是其中最为关键的一步。目前,许多研究者应用GPS、GIS、GIS+GPS以及加速度计等数据来识别出行方式,使用的识别方法主要是基于规则和计算概率的方法。但由于GIS数据在国内比较难以获取,并且在使用GIS数据与GPS轨迹匹配来识别出行方式如公交方式识别时,计算复杂,效率低,识别效果不佳。基于规则的方法对数据的依赖性比较大,一旦数据来源发生变化,已取得的规则就不再适用,方法通用性较差;同时在进行出行方式识别时缺少必要的特征参数选择过程,可能存在相关的特征参数应用于同一识别模型中发生过拟合进而导致识别精度下降。发明内容[0004]为解决上述技术问题,本发明的目的在于提供一种基于GPS轨迹数据的出行方式识别方法。[0005]本发明是通过以下技术方案实现的:[0006]根据GPS信号分三种情况,GPS信号缺失,GPS信号不完整,GPS信号[0007]正常;[0008]a.GPS信号缺失,基于规则的地铁单方式段出行的识别方法:[0009]1地铁单方式段持续时间大于5分钟;[0010]2GPS轨迹点的最大速度小于地铁最高速度;[0011]3地铁单方式段的起点与最近的地铁出入口之间的距离小于100米;[0012]4地铁单方式段的终点与最近的地铁出入口之间的距离小于200米;[0013]b.GPS信号不完整,基于规则的地铁单方式段的识别方法:[0014]1满足所述的GPS信号缺失,基于规则的地铁单方式段出行的识别方法的所有要求[0015]2除起点和终点外的所有GPS轨迹点与最近的地铁线路之间的距离小于30米;[0016]c.GPS信号正常的其他出行方式采用随机森林分类器,包括以下步骤:第一步、GPS轨迹数据准备:[0017]采集的GPS轨迹数据包括:用户编号、定位日期、时间、经度、炜度、速度、海拔、方向和定位卫星数,根据用户编号,GPS轨迹数据按照时间顺序分配到每个人每天的出行,即摘取每人每天的出行轨迹点并进行相关参数的计算,[0018]1计算每个点瞬时速度;[0019]2计算每个点瞬时加速度;[0020]3计算每个点方向变化值;[0021]4计算特征参数:计算每个单方式出行段的速度、加速度、方向变化和距离出行时长4个方面的特征作为方式识别的输入参数;[0022]第二步、特征参数筛选:[0023]将第一步数据准备步骤中得到的所有单方式出行段的22个特征参数作为全样本输入Weka进行参数筛选,使用不同的搜索方法和相应的评价策略来停止搜索,直至找出使得全样本出行方式分类最佳的组合,经过特征参数选择得到7个显著特征参数:出行距离,平均速度,50分位速度S50,75分位速度S75,95分位速度S95,平均方向变化量和速度偏度。[0024]第三步、随机森林分类器出行方式识别:[0025]按照第2步筛选的特征参数整理每个单方式出行段,这样得到每个单方式出行段的特征参数集,使用WekaExplorer的分类功能,WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。[0026]系统随机把所有样本分为60%和40%两部分,60%的样本用于建模训练,40%的样本用于验证测试。[0027]建模训练:系统随机选取的60%样本的特征参数作为输入,使用随机森林分类器进行模型创建,当所有样本训练达到要求后程序自动停止,系统会自动保存模型训练结果文件,建模训练工作完毕;[0028]验证测试:系统随机选取的另外40%的样本进行验证测试,调用保存的建模训练结果文件,输入该40%的样本,由随机森林分类器进行出行方式的识别并保存结果;[0029]验证测试的识别结果会显示在WekaExplorer结果输出界面,包括模型的训练与测试用时、整体识别正确率、各方式识别混淆矩阵表。[0030]进一步的,第二步所述的搜索方法分别使用可回溯的贪婪搜索扩张Bestfirst、向前或向后的单步搜索Greedystepwise以及属性判据值排序法Ranker;[0031]进一步的,第二步所述的所述的评估策略分别使用CfsSubsetEva1根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估、WrapperSubsetEval使用一种学习模式对属性集进行评估、WrapperSubsetEva通过反复测试一个实例和其同类或不同类中最近的实例上的属性值进行评估、GainRatioAttributeEval根据与分类有关的每一个属性的增益比进行评估、InfoGainAttributeEval根据与分类有关的每一个属性的信息增益进行评估;[0032]使用以上3种搜索方法和对应的5种评估策略对全样本进行特征参数筛选,若评价函数最优,则停止筛选,否则继续,直到找出最优的参数组合使得评价函数最优,按照整体分类识别率最高的一组,该组所选参数即为第3步方式识别的输入参数。[0033]进一步的,GPS轨迹点记录间隔为1个秒。[0034]进一步的,通过速度可以将步行出行段识别出来,95分位速度S95可以将出行方式分成3个类别:步行、自行车与电动车、小汽车和公交车;出行距离DIST可以将出行方式分成3个类别:步行与自行车、电动车和公交车、小汽车,所以小汽车出行方式可以通过出行距离识别出来;平均方向变化量可以将步行与自行车与其他3类方式区分开;速度偏度可以将自行车方式段识别出来;剩下的电动车与公交车可以通过95分位速度区分开公交车的95分位速度高于电动车),识别各出行方式时如果使用单一参数存在混淆或模糊时可以结合其他特征参数运用之前学习过程建立的模型进行综合判断。[0035]相比现有技术,本发明具有如下有益效果:[0036]本发明提出的基于GPS轨迹数据的出行方式识别方法有效地将各种方式精准分类,识别精度高,方式分类细,可以很好地与GPS轨迹数据结合,算法实现简单。[0037]数据方面,不依赖其他数据源(如GIS数据、加速度计数据等);特征参数方面,提出4类与方式识别相关的特征共22个参数;数据准备方面,提出了特征参数筛选,防止相关参数过拟合或参数不显著导致识别精度下降;算法方面,应用随机森林分类器进行出行方式识别,随机森林分类器可以处理高维离散或连续的数据,适合本发明出行数据类型,计算速度快,易于实现;识别结果方面,方式分类细致,识别精度高。[0038]该方法不受GPS数据限制,通用性高,识别结果准确可靠,适用于基于GPS轨迹数据的出行方式识别,有利于推动基于智能手机的出行调查的大规模推广。附图说明[0039]图1出行方式识别流程图[0040]图2出行方式平均速度图[0041]图3出行方式50分位速度图[0042]图4出行方式75分位速度图[0043]图5出行方式95分位速度图[0044]图6出行方式出行距离图[0045]图7出行方式平均方向变化量图[0046]图8出行方式速度偏度图[0047]图9出行方式分类结果散点图具体实施方式[0048]下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程。[0049]本发明采用1基于规则的地铁出行识别;2基于随机森林分类器的其他方式识另IJ。需要说明的是本发明所识别的出行方式的基本单位都是以单方式出行段,因为一次完整意义的出行可能使用包括不止一种出行方式。[0050]基于规则的地铁方式识别:[0051]与公交网络相比,地铁网络包括更少的线路和站点。而且,大部分的地铁网络与小汽车行驶的机动车道并不重合。与其他出行方式相比,地铁出行的GPS信号质量较差。在大部分情况下,由于位于地下或者金属车身阻挡的缘故,整个地铁出行都没有或仅有少量的GPS轨迹点。这些具有较强区分性的特征能减少地铁出行与其他方式相混淆的可能性,因此,基于规则的方法是识别地铁出行的合理方法。基于此,几个比较有区分性的特征(如与最近地铁线路出入口的距离、信号质量被用来作为地铁识别的显著特征。在识别地铁出行方式时,考虑两种场景,即GPS信号缺失和不完整的GPS信号。表1列出了两种GPS信号记录情况下的地铁单方式段识别规则:[0052][0053]表1[0054]GPS信号完全缺失一般发生在地铁在地面以下运行的情形中,这时需要匹配出行段起终点与最近的地铁出入口的距离。用户在进入地铁站点时,GPS信号是突然消失的,但是从站点出来时,由于GPS定位软件的热冷启动原因,GPS信号不会立即恢复。因此,规则4的距离应该比规则3中的距离大。[0055]当用户乘坐的地铁在地面以上部分运营时,设备能断断续续记录不完整的GPS信号,这时除了要满足GPS信号缺失情形下的4条规则以外,除起点和终点外的所有GPS轨迹点与最近的地铁线路之间的距离小于30米。[0056]基于随机森林分类器的其他方式识别:[0057]一、GPS轨迹数据准备[0058]本发明采用基于智能手机的GPS轨迹采集方法,通常采集的GPS轨迹数据包括:用户编号、定位日期、时间、经度、炜度、速度、海拔、方向和定位卫星数。[0059]根据用户编号,GPS轨迹数据按照时间顺序分配到每个人每天的出行,即摘取每人每天的出行轨迹点并进行相关参数的计算:[0060]1、计算每个点瞬时速度:GPS轨迹点记录间隔为1个秒,故第i个点的瞬时速度可用其相邻出行段的距离与时间差值计算得出:Vi=disi—i,i+disi,i+itimei+i-timei—1。[0061]其中,disi—1;i表示第i-ι个轨迹点与第i个轨迹点之间的距离,timei—i表示第i-ι个轨迹点的时刻;[0062]2、计算每个点瞬时加速度:GPS轨迹点记录间隔为1个秒,故第i个点的瞬时加速度可用其相邻点的速度差与时间差近似计算得出:ai=Vi+i-Vi—itimei+i-timei—1;[0063]3、计算每个点方向变化值:每个轨迹点的方向值与前一点方向值的差值即为该点的方向变化值,即:Acii=Oi-V1,其中,Acii为第i个点的方向变化值,Oi为第i点的方向值;[0064]4、计算特征参数。[0065]依据之前的出行日志记录,摘取出每人每天的单方式出行段。按照出行日志记录的单方式出行段的时间截取对应的GPS轨迹点。这样就得到每个单方式出行段的GPS轨迹点,根据相关研究和文献阅读,计算每个单方式出行段的速度、加速度、方向变化和距离出行时长等4个方面的特征作为方式识别的输入参数:[0066]速度:计算每个单方式出行段中所有GPS轨迹点的瞬时速度,接着分别计算得到如下速度相关的参数:[0067]平均速度,速度方差,25分位速度S25,50分位速度(S50,75分位速度(S75,95分位速度S95,速度四分位距,速度偏度,速度峰度,以及瞬时速度值在以下区间的GPS轨迹点占该单方式出行段中所有轨迹点的比例:低于〇.5ms,低于lms,低于1.5ms,低于2ms;[0068]加速度:计算每个单方式出行段中所有GPS轨迹点的瞬时加速度,接着分别计算得到如下与加速度相关的参数:平均加速度,95分位加速度A95,加速度方差,加速度偏度,加速度峰度;[0069]方向变化:根据每个点的方向变化值,计算得到最大方向变化值和平均方向变化值;[0070]距离时长:统计每个单方式出行段距离和出行段时长。[0071]二、特征参数筛选[0072]将第一步数据准备步骤中得到的所有单方式出行段的22个特征参数作为全样本输入Weka进行参数筛选。使用不同的搜索方法和相应的评价[0073]策略对全样本进行特征参数筛选。若评价函数最优,则停止筛选,否则继续,直到找出最优的参数组合使得评价函数最优。经过特征参数选择得到7个显著特征参数:出行距离,平均速度,50分位速度S50,75分位速度S75,95分位速度S95,平均方向变化量和速度偏度。[0074]按照整体分类识别率最高的一组,该组所选参数即为第3步方式识别的输入参数。[0075]三、出行方式识别[0076]按照第2步筛选的特征参数整理每个单方式出行段,这样得到每个单方式出行段的特征参数集。接下来使用WekaExplorer的分类功能,系统随机把所有样本分为60%和40%两部分,60%的样本用于建模训练,40%的样本用于验证测试。[0077]建模训练:系统随机选取的60%样本的特征参数作为输入,使用随机森林分类器进行模型创建,当所有样本训练达到要求后程序自动停止,系统会自动保存模型训练结果文件,建模训练工作完毕;[0078]验证测试:系统随机选取的另外40%的样本进行验证测试,调用保存的建模训练结果文件,输入该40%的样本,由随机森林分类器进行出行方式的识别并保存结果;[0079]验证测试的识别结果会显示在WekaExplorer结果输出界面,包括模型的训练与测试用时、整体识别正确率、各方式识别混淆矩阵表。[0080]实例验证:[0081]实验共采集到2285条上海地区的出行段GPS轨迹数据,其中有1162段步行,188段自行车,61段电动车,323段公交车和551段小汽车出行段。经过特征参数选择得到7个显著特征参数:出行距离,平均速度,50分位速度S50,75分位速度S75,95分位速度S95,平均方向变化量和速度偏度。[0082]图2〜8为5种出行方式的显著特征参数分布箱图,图2〜5四个速度相关的参数分布模式相似,步行、自行车、电动车、公交车与小汽车的相关速度值逐渐升高,其中步行的相关速度明显低于其他方式,所以通过速度可以将步行出行段识别出来;图5中95分位速度S95可以将出行方式分成3个类别:步行、自行车与电动车、小汽车和公交车;图6出行距离DIST可以将出行方式分成3个类别:步行与自行车、电动车和公交车、小汽车,所以小汽车出行方式可以通过出行距离识别出来;图7平均方向变化量可以将步行与自行车与其他3类方式区分开;图8速度偏度可以将自行车方式段识别出来;剩下的电动车与公交车可以通过95分位速度区分开公交车的95分位速度高于电动车),识别各出行方式时如果使用单一参数存在混淆或模糊时可以结合其他特征参数运用之前学习过程建立的模型进行综合判断。[0083]按照60%和40%的比例分别进行建模与验证测试。表2为验证识别的914个出行方式识别结果混淆矩阵。从识别结果来看,464例步行中,其中有463个正确识别,仅有1个识别为自行车。[0084][0085]表2[0086]图9为出行段识别散点图,纵坐标是真实的出行方式,横坐标是识别的出行方式,对角线方向为正确识别的方式。[0087]以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

权利要求:1.一种基于GPS轨迹数据的出行方式识别方法,其特征在于:根据GPS信号分三种情况,GPS信号缺失,GPS信号不完整,GPS信号正常;a.GPS信号缺失,基于规则的地铁单方式出行的识别方法:1地铁单方式段持续时间大于5分钟;2GPS轨迹点的最大速度小于地铁最高速度;3地铁单方式段的起点与最近的地铁出入口之间的距离小于100米;4地铁单方式段的终点与最近的地铁出入口之间的距离小于200米;b.GPS信号不完整,基于规则的地铁单方式的识别方法:1满足所述的GPS信号缺失,基于规则的地铁单方式段出行的识别方法的所有要求;2除起点和终点外的所有GPS轨迹点与最近的地铁线路之间的距离小于30米;c.GPS信号正常的其他出行方式采用随机森林分类器,包括以下步骤:第一步、GPS轨迹数据准备:采集的GPS轨迹数据包括:用户编号、定位日期、时间、经度、炜度、速度、海拔、方向和定位卫星数,根据用户编号,GPS轨迹数据按照时间顺序分配到每个人每天的出行,即摘取每人每天的出行轨迹点并进行相关参数的计算,1计算每个点瞬时速度;2计算每个点瞬时加速度;3计算每个点方向变化值;4计算特征参数:计算每个单方式出行段的速度、加速度、方向变化和距离出行时长4个方面的特征作为方式识别的输入参数;第二步、特征参数筛选:将第一步数据作为全样本输入Weka进行参数筛选,使用不同的搜索方法和相应的评价策略来搜索,直至找出使得全样本出行方式分类最佳的组合,筛选出7个显著特征参数:出行距离,平均速度,50分位速度S50,75分位速度S75,95分位速度S95,平均方向变化量和速度偏度;第三步、随机森林分类器出行方式识别:按照第2步筛选的特征参数整理每个单方式出行段,这样得到每个单方式出行段的特征参数集,使用WekaExplorer的分类功能,系统随机把所有样本分为60%和40%两部分,60%的样本用于建模训练,40%的样本用于验证测试。2.根据权利要求1所述的一种基于GPS轨迹数据的出行方式识别方法,其特征在于,第二步所述的搜索方法分别使用可回溯的贪婪搜索扩张Bestfirst、向前或向后的单步搜索Greedystepwise以及属性判据值排序法Ranker;第二步所述的所述的评估策略分别使用CfsSubsetEval根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估、WrapperSubsetEval使用一种学习模式对属性集进行评估、WrapperSubsetEva通过反复测试一个实例和其同类或不同类中最近的实例上的属性值进行评估、GainRatioAttributeEval根据与分类有关的每一个属性的增益比进行评估、InfoGainAttributeEval根据与分类有关的每一个属性的信息增益进行评估;使用以上3种搜索方法和对应的5种评估策略对全样本进行特征参数筛选,若评价函数最优,则停止筛选,否则继续,直到找出最优的参数组合使得评价函数最优,按照整体分类识别率最高的一组,该组所选参数即为第3步方式识别的输入参数。3.根据权利要求1所述的一种基于GPS轨迹数据的出行方式识别方法,其特征在于,第二步所述的7个显著特征参数中,通过速度将步行出行方式识别出来,通过出行距离将小汽车出行方式识别出来;通过平均方向变化量将步行与自行车与其他方式区分开;通过速度偏度将自行车出行方式识别出来;剩下的电动车与公交车通过95分位速度区分开,公交车的95分位速度高于电动车。4.根据权利要求1所述的一种基于GPS轨迹数据的出行方式识别方法,其特征在于,GPS轨迹点记录间隔为1个秒。

百度查询: 上海交通大学 一种基于GPS轨迹数据的出行方式识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。