Skip to main content
QUICK REVIEW

[论文解读] Random Projections and Sampling Algorithms for Clustering of High-Dimensional Polygonal Curves

Stefan Meintrup, Alexander Munteanu|arXiv (Cornell University)|Jan 1, 2019
Advanced Clustering Algorithms Research被引用 6
一句话总结

本文提出了一种针对高维多边形曲线的Johnson-Lindenstrauss型随机投影方法,以实现输入规模的次线性依赖的k-中位数聚类。通过以Fréchet距离衡量误差,提出了一种快速、基于CUDA并行化的算法,在实现可扩展聚类的同时,证明了在概率归约下,将Fréchet距离近似因子优于√2是不可能的。

ABSTRACT

We study the $k$-median clustering problem for high-dimensional polygonal curves with finite but unbounded number of vertices. We tackle the computational issue that arises from the high number of dimensions by defining a Johnson-Lindenstrauss projection for polygonal curves. We analyze the resulting error in terms of the Fr\'echet distance, which is a tractable and natural dissimilarity measure for curves. Our clustering algorithms achieve sublinear dependency on the number of input curves via subsampling. Also, we show that the Fr\'echet distance can not be approximated within any factor of less than $\sqrt{2}$ by probabilistically reducing the dependency on the number of vertices of the curves. As a consequence we provide a fast, CUDA-parallelized version of the Alt and Godau algorithm for computing the Fr\'echet distance and use it to evaluate our results empirically.

研究动机与目标

  • 解决高维多边形曲线(顶点数量无界)的k-中位数聚类在计算上的不可行性问题。
  • 通过子采样技术降低聚类管道对输入曲线数量的依赖性。
  • 为多边形曲线设计一种针对Fréchet距离保持的Johnson-Lindenstrauss投影,且误差可控。
  • 通过概率归约建立近似Fréchet距离的理论极限。
  • 实现并经验评估一种快速、基于CUDA并行化的Alt和Godau算法,用于Fréchet距离计算。

提出的方法

  • 提出一种专为多边形曲线设计的新型Johnson-Lindenstrauss投影,以降低维度,同时保持Fréchet距离结构。
  • 以Fréchet距离为度量分析投影引入的误差,提供失真程度的理论边界。
  • 采用子采样技术,实现在聚类流程中对输入曲线数量的次线性依赖。
  • 开发Alt和Godau算法的CUDA并行实现,以实现高效的Fréchet距离计算。
  • 利用概率归约证明:在概率归约下,将Fréchet距离近似因子优于√2是不可能的。
  • 结合投影、子采样与并行化距离计算,实现对高维曲线的可扩展聚类。

实验结果

研究问题

  • RQ1随机投影能否被有效适配以保持高维多边形曲线的Fréchet距离?
  • RQ2此类投影在Fréchet距离上的理论误差边界是什么?
  • RQ3通过子采样是否能降低k-中位数聚类对输入曲线数量的依赖性,同时保持准确性?
  • RQ4能否使用概率方法实现优于√2的Fréchet距离近似因子?
  • RQ5在大规模场景下,高维曲线的Fréchet距离能否被高效计算?

主要发现

  • 所提出的多边形曲线随机投影在Fréchet距离上保证了有界的误差,使在低维空间中实现可靠聚类成为可能。
  • 通过有效的子采样,聚类流程实现了对输入曲线数量的次线性依赖。
  • Alt和Godau算法的CUDA并行实现实现了快速、可扩展的Fréchet距离计算。
  • 本文证明了在概率归约下,将Fréchet距离近似因子小于√2是不可能的。
  • 实验评估证实了所提出流程在高维曲线数据集上的高效性与准确性。
  • 理论与实证结果共同构建了一个可扩展的高维多边形曲线聚类框架。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。