Skip to main content
QUICK REVIEW

[论文解读] Review and Perspective for Distance Based Trajectory Clustering

Philippe Besse, Brendan Guillouet|arXiv (Cornell University)|Aug 20, 2015
Data Management and Algorithms参考文献 11被引用 30
一句话总结

本文提出了一种新型基于形状的轨迹距离度量——对称分段路径距离(SSPD),该度量对时间不敏感,通过轨迹的几何形状、物理邻近度和总长度进行比较。在层次聚类和亲和传播方法中评估后,SSPD在各项指标上优于现有距离度量,尤其在基于时间扭曲的方法中表现更优,实现了最低的簇内相似性准则,并生成了同质性高、可解释性强的聚类,能够反映道路网络上的驾驶行为模式。

ABSTRACT

In this paper we tackle the issue of clustering trajectories of geolocalized observations. Using clustering technics based on the choice of a distance between the observations, we first provide a comprehensive review of the different distances used in the literature to compare trajectories. Then based on the limitations of these methods, we introduce a new distance : Symmetrized Segment-Path Distance (SSPD). We finally compare this new distance to the others according to their corresponding clustering results obtained using both hierarchical clustering and affinity propagation methods.

研究动机与目标

  • 解决现有轨迹聚类方法在依赖时间或计算开销较大的距离度量方面的局限性。
  • 开发一种数据驱动、与道路网络无关的距离度量,能够捕捉轨迹形状和空间邻近度,无需GPS映射或时间对齐。
  • 通过层次聚类(CAH)和亲和传播(AP)在真实车辆轨迹数据上评估多种轨迹距离度量的性能。
  • 基于形状一致性和聚类同质性,识别出最适合聚类车辆轨迹的最优距离度量。
  • 为目的地预测等应用提供更准确的驾驶行为建模能力。

提出的方法

  • 提出对称分段路径距离(SSPD),一种基于形状的距离度量,将轨迹视为整体几何对象进行比较,无需依赖时间索引。
  • SSPD基于轨迹总长度、路径分段的差异性以及对应分段之间的物理距离计算差异性,采用对称化公式以确保一致性。
  • 采用分段线性轨迹表示法,将轨迹建模为线段序列,避免对时间采样或GPS精度的假设。
  • 应用层次聚类(CAH)结合Ward链接法和亲和传播(AP)方法,评估多种距离度量在聚类性能上的表现。
  • 使用簇内相似性(Within-Like)和簇间相似性(Between-Like)准则评估聚类质量,较低的Within-Like值表示聚类同质性更优。
  • 在Python和Cython中实现距离度量,以比较计算效率,利用静态类型和C数学库调用提升性能。

实验结果

研究问题

  • RQ1不同轨迹距离度量(尤其是基于时间扭曲和基于形状的度量)在聚类车辆轨迹时表现如何?
  • RQ2一种对时间不敏感、具备形状感知能力的距离度量是否能优于传统方法(如DTW或LCSS)提升聚类质量?
  • RQ3所提出的SSPD距离是否能产生比现有替代方案更同质且可解释性更强的聚类?
  • RQ4不同距离度量和聚类算法的最优聚类数量是多少?
  • RQ5在实际实现中,SSPD的计算效率与其它距离度量相比如何?

主要发现

  • 在CAH-Ward和亲和传播聚类中,SSPD在所有聚类规模下均实现了最低的Within-Like准则值,表明其聚类同质性更优。
  • 使用SSPD的亲和传播方法需要38个聚类,高于CAH-Ward方法发现的最优20个聚类,但仍生成了稳定且可解释的聚类。
  • 基于时间扭曲的距离度量(DTW和LCSS)聚类效果最差,其中LCSS显著劣于DTW。
  • 基于形状的距离度量(Fréchet、Hausdorff和离散Fréchet)优于基于时间扭曲的方法,其中Fréchet与Hausdorff表现非常接近。
  • 在Cython中实现的SSPD计算效率高,得益于静态类型和C数学库的集成,由于无需回溯步骤,其速度优于DTW和LCSS。
  • 可视化分析证实,基于SSPD的聚类按路径相似性分组,具有清晰的空间一致性及最小的簇内差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。