买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于改进密度峰值聚类的AIS数据航线提取方法_西北工业大学_202410039086.2 

申请/专利权人:西北工业大学

申请日:2024-01-10

公开(公告)日:2024-04-12

公开(公告)号:CN117874555A

主分类号:G06F18/23

分类号:G06F18/23;G06F18/213;G06F18/10

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于改进密度峰值聚类的船舶航线提取算法。该方法包括以下步骤:1使用自适应阈值的特征点提取算法,得到了对地航向和对地航速变化较大的AIS数据点作为特征点。2依据特征点的经纬度进行四叉树空间分区,从而划分出多个分区。3使用FastDTW算法进行船舶轨迹间相似度距离计算。4使用自适应密度峰值聚类算法进行分区内局部聚类。5对多个分区的聚类结果进行合并,从而得到实际船舶航线。6使用Spark平台对步骤345过程实现并行化。本方法能够适应不同轨迹形态和不同数量级下的轨迹特征提取,具备聚类准确率高、执行效率高、适用于大规模AIS数据挖掘等特点。

主权项:1.一种基于改进密度峰值聚类的AIS数据航线提取方法,其特征在于包括以下步骤:步骤1、对所述待测试的AIS数据进行预处理。步骤2、自适应阈值的特征点提取。首先,按照水上移动业务标识码MaritimeMobileServiceIdentity,MMSI将轨迹数据分组;然后,将单条轨迹所有AIS点根据UNIX时间戳排序,计算相邻AIS点的CRC和CRS;随后,将CRC和CRS排序,并剔除差异较大值;最后,分别计算单条轨迹的CRC和CRS的平均值和作为阈值,筛选大于CRC和CRS平均值的AIS点作为特征点。其中,CRC是单一轨迹段时间上相邻AIS数据点的航向变化率,CRS是单一轨迹段时间上相邻AIS数据点的速度变化率,其计算公式分别如下所示: 其中,是同一船舶在不同时间戳tm的位置点,W和V分别表示船舶的对地航向和行驶速度。步骤3、依据特征点的经纬度进行四叉树空间分区。步骤4、对于每一个分区,使用快速动态时间归整FastDynamicTimeWrapper,FastDTW算法计算船舶轨迹间相似度距离。具体步骤为:首先,对原始的时间序列进行数据抽象,数据抽象迭代执行多次;然后,在较粗粒度上对时间序列运行动态时间归整DynamicTimeWrapper,DTW算法;最后,将在较粗粒度上得到的归整路径经过的方格进一步细粒度化到新的时间序列上,计算船舶轨迹间相似度距离。步骤5、使用自适应密度峰值聚类算法进行分区内局部聚类,具体步骤为:首先,基于分区数据计算分区内各点数据的局部密度ρi与相对距离δi,具体计算方法如下: 其中,P为特定数据分区,dij为样本i与j的距离,dc为截断距离,其计算方式如下: 其中,Dist是所有数据点之间的距离矩阵,结果按升序排序。N表示所有数据点的数目,ε表示所占百分比。然后,对于各分区,根据各个点的局部距离与相对密度,计算是计算其决策值γi=ρi×δi,并对分区内所有数据的决策值进行降序排序,根据如下方式确定临界点p:p=max{i|||kj|-|kj+1||≥β,i=1,2,...,n-2}6其中,kj表示第j个点和第j+1个点之间线段的斜率,β为在排序后相邻两点斜率差的平均值,计算方式如下:β=αjN-27 其中,αj表示排序后相邻两点之间斜率差的总和,N为样本总数。步骤6、对多个分区的聚类结果进行合并,得到船舶经验航线。具体步骤为:首先,根据各个分区的数据聚类结果,确定到每个数据分区的所有扩展点,判断其是否为聚类中心点,加入合并候选集;然后根据两个合并候选集中的点的距离是否小于2倍的扩展阈值λ,决定是否将局部簇合并,并重新指定聚类中心,从而进行剩余非中心点的重新分配;最终完成局部簇合并,得到最终聚类结果。步骤7、使用Spark平台对步骤4、5、6实现并行化,将聚类任务分配给多台机器,降低单台机器的内存消耗,多个分区同时聚类,共同完成聚类任务。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于改进密度峰值聚类的AIS数据航线提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。