Skip to main content
QUICK REVIEW

[论文解读] Large-scale Multi-view Subspace Clustering in Linear Time

Zhao Kang, Wang-Tao Zhou|arXiv (Cornell University)|Nov 21, 2019
Advanced Clustering Algorithms Research参考文献 32被引用 30
一句话总结

该论文提出LMVSC,一种基于锚点图构建与新型图融合策略的大规模多视角子空间聚类方法,实现线性时间复杂度。该方法在大规模数据集上达到最先进聚类准确率,同时相比现有方法将计算时间减少高达20倍,并且在单视角场景下也表现出良好的泛化能力。

ABSTRACT

A plethora of multi-view subspace clustering (MVSC) methods have been proposed over the past few years. Researchers manage to boost clustering accuracy from different points of view. However, many state-of-the-art MVSC algorithms, typically have a quadratic or even cubic complexity, are inefficient and inherently difficult to apply at large scales. In the era of big data, the computational issue becomes critical. To fill this gap, we propose a large-scale MVSC (LMVSC) algorithm with linear order complexity. Inspired by the idea of anchor graph, we first learn a smaller graph for each view. Then, a novel approach is designed to integrate those graphs so that we can implement spectral clustering on a smaller graph. Interestingly, it turns out that our model also applies to single-view scenario. Extensive experiments on various large-scale benchmark data sets validate the effectiveness and efficiency of our approach with respect to state-of-the-art clustering methods.

研究动机与目标

  • 解决多视角子空间聚类(MVSC)中的关键可扩展性差距,现有方法存在O(n²)或O(n³)的时间复杂度。
  • 克服在大规模多视角数据上构建完整n×n相似性图及执行谱聚类带来的计算瓶颈。
  • 设计一种方法,在保持高聚类准确率的同时,实现多视角与单视角数据的线性时间复杂度。
  • 使MVSC在真实世界大数据应用中具备实际可部署性,而当前方法过于缓慢或内存占用过高。

提出的方法

  • 利用锚点构建每个视角的更小、近似的相似性图,将O(n²)图构建成本降低。
  • 应用一种新颖的图融合机制,将多个视角特定的锚点图融合为统一紧凑的图表示。
  • 在集成后的小型图上执行谱聚类,而非完整数据图,显著加速特征分解过程。
  • 将优化问题公式化为在锚点图上联合学习稀疏表示,并通过正则化保持子空间结构。
  • 引入参数α以平衡锚点图表示学习中重构误差与正则化之间的权衡。
  • 通过将所有视角视为单一视角,将方法适配至单视角聚类,保持线性复杂度与高性能。

实验结果

研究问题

  • RQ1多视角子空间聚类能否在保持聚类准确率的同时,实现大规模数据集上的线性时间复杂度?
  • RQ2如何在多视角间有效构建并融合基于锚点的图,以保持子空间结构?
  • RQ3所提出方法在大规模基准测试中是否在准确率与计算效率上均优于现有SOTA MVSC方法?
  • RQ4该方法能否推广至单视角子空间聚类,并实现与现有大规模方法相当或更优的性能?

主要发现

  • 在带高斯噪声的MNIST数据集上,LMVSC达到55.65%的准确率,优于SSCOMP的44.65%,计算时间从约1150秒减少至55.17秒。
  • 在斑点噪声设置下,LMVSC达到59.20%的准确率,显著高于SSCOMP的45.60%,且速度快20倍。
  • 在盐与胡椒噪声设置下,LMVSC达到58.89%的准确率,超过SSCOMP的48.16%,并在73.33秒内完成。
  • 在单视角数据上,LMVSC将RCV1数据集的准确率从k-means的18.46%提升至19.29%,将CoverType数据集的准确率从25.05%提升至38.62%,且运行时间合理。
  • 该方法可扩展至超过50万样本的数据集(如CoverType),而SSCOMP在24小时内无法完成,其他方法则因内存不足而崩溃。
  • 参数分析表明,锚点数量过多或α值过高会导致性能下降,表明需进行精细调参以保证鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。