Skip to main content
QUICK REVIEW

[论文解读] Clustering multi-way data: a novel algebraic approach

Eric Kernfeld, Shuchin Aeron|arXiv (Cornell University)|Dec 22, 2014
Tensor decomposition and applications参考文献 26被引用 29
一句话总结

本文提出了一种新颖的基于张量的聚类方法——SSmC(用于多维数据的稀疏子空间聚类),通过使用t-积来保留多维数据的三维结构,将稀疏子空间聚类(SSC)方法进行扩展。通过将数据建模为张量,并利用自由模上的t-积代数,该方法在图像数据上的聚类准确率高于SSC,尤其在极少预处理的情况下表现优异,已在人脸和数字数据集上得到验证。

ABSTRACT

In this paper, we develop a method for unsupervised clustering of two-way (matrix) data by combining two recent innovations from different fields: the Sparse Subspace Clustering (SSC) algorithm [10], which groups points coming from a union of subspaces into their respective subspaces, and the t-product [18], which was introduced to provide a matrix-like multiplication for third order tensors. Our algorithm is analogous to SSC in that an "affinity" between different data points is built using a sparse self-representation of the data. Unlike SSC, we employ the t-product in the self-representation. This allows us more flexibility in modeling; infact, SSC is a special case of our method. When using the t-product, three-way arrays are treated as matrices whose elements (scalars) are n-tuples or tubes. Convolutions take the place of scalar multiplication. This framework allows us to embed the 2-D data into a vector-space-like structure called a free module over a commutative ring. These free modules retain many properties of complex inner-product spaces, and we leverage that to provide theoretical guarantees on our algorithm. We show that compared to vector-space counterparts, SSmC achieves higher accuracy and better able to cluster data with less preprocessing in some image clustering problems. In particular we show the performance of the proposed method on Weizmann face database, the Extended Yale B Face database and the MNIST handwritten digits database.

研究动机与目标

  • 解决现有子空间聚类方法将二维或三维数据展平为向量所导致的结构信息丢失问题。
  • 构建一种新的代数框架,将多维数据(如图像)作为张量处理,利用t-积实现更有效的聚类。
  • 通过用t-积运算替代标量矩阵乘法,将稀疏子空间聚类(SSC)扩展至张量数据。
  • 基于张量框架中的管角几何,为聚类性能提供理论保证。
  • 在无需大量预处理的现实世界图像数据集上,展示更高的聚类准确率。

提出的方法

  • 该方法使用t-积定义基于张量的自表示,用管状上的卷积类运算替代SSC中的标量乘法。
  • 数据被组织为一个三维张量(H × W × D),其中每个前向切片对应一个数据样本,从而保留空间结构。
  • 通过凸优化学习一个稀疏系数张量,最小化系数的l1-范数,同时满足基于t-积的自表示约束。
  • 利用基于t-积的系数张量构建亲和矩阵,该张量通过稀疏且结构化的表示反映子空间成员关系。
  • 理论分析通过张量的傅里叶域表示定义管角,并推导出正确聚类的条件。
  • 该方法在交换环上的自由模中运行,支持类似向量空间的几何推理,但适配于张量代数。

实验结果

研究问题

  • RQ1t-积框架能否用于将SSC推广至多维数据,同时保留结构信息?
  • RQ2所提出的基于张量的聚类方法在图像数据上的准确率是否高于向量空间中的SSC?
  • RQ3t-积聚类方法在何种理论条件下能正确分离子空间?
  • RQ4该方法在现实世界图像数据集上,仅经过极少预处理时表现如何?
  • RQ5t-积框架能否支持与SSC类似的聚类性能理论保证?

主要发现

  • 所提出的SSmC方法在Weizmann人脸数据库和Extended Yale B人脸数据库上,聚类准确率高于SSC,尤其在预处理较少时表现更优。
  • 在MNIST手写数字数据集上,SSmC优于SSC,展现出对图像结构变化和噪声的鲁棒性。
  • 理论分析表明,当子模之间的管角足够大时,可保证正确聚类,这推广了SSC中的角度分离条件。
  • 该方法通过将图像建模为张量,保留了图像的二维结构,避免了向量化过程中固有的空间相关性损失。
  • 该框架通过在环上自由模的新型刻画,支持理论保证,使得可通过傅里叶域分析推导性能边界。
  • 该方法是SSC的严格推广,当张量退化为矩阵时,SSC即为该方法的特例。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。