Skip to main content
QUICK REVIEW

[論文レビュー] Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly Distributed Data Subspace Clustering

Eysan Mehrbani, Mohammad Hossein Kahaei|arXiv (Cornell University)|Mar 6, 2021
Sparse and Compressive Sensing Techniques参考文献 31被引用数 6
ひとこと要約

本稿では、非線形的かつ重複する多様体における局所性モデリングを強化するために、変動する近傍サイズと非一様なデータ密度を捉えるためのテンソルハイパーグラフモデルを統合した、新しい部分空間クラスタリング手法であるテンソルラプラシアン正則化低ランク表現(TLR-LRR)を提案する。この手法は、非線形性、外れ値、幾何的重複を示す合成データおよび実データにおいて、最先端のクラスタリング精度を達成する。

ABSTRACT

Low-Rank Representation (LRR) highly suffers from discarding the locality information of data points in subspace clustering, as it may not incorporate the data structure nonlinearity and the non-uniform distribution of observations over the ambient space. Thus, the information of the observational density is lost by the state-of-art LRR models, as they take a constant number of adjacent neighbors into account. This, as a result, degrades the subspace clustering accuracy in such situations. To cope with deficiency, in this paper, we propose to consider a hypergraph model to facilitate having a variable number of adjacent nodes and incorporating the locality information of the data. The sparsity of the number of subspaces is also taken into account. To do so, an optimization problem is defined based on a set of regularization terms and is solved by developing a tensor Laplacian-based algorithm. Extensive experiments on artificial and real datasets demonstrate the higher accuracy and precision of the proposed method in subspace clustering compared to the state-of-the-art methods. The outperformance of this method is more revealed in presence of inherent structure of the data such as nonlinearity, geometrical overlapping, and outliers.

研究の動機と目的

  • 部分空間クラスタリングにおける標準的な低ランク表現(LRR)が、局所性および非一様なデータ分布を捉える能力に限界を示す問題に対処すること。
  • 非線形性、幾何的重複、外れ値が存在する状況でのクラスタリング精度を向上させること。
  • 固定k近傍の代わりにハイパーグラフ構造を用いて、変動する近傍サイズをモデル化すること。
  • スパarsityおよび非負性制約を組み込むことで、外れ値に対してより頑健になり、部分空間表現が向上すること。
  • スケーラブルな計算を実現するための効率的な最適化フレームワーク(ADMM)を開発すること。

提案手法

  • 固定k近傍の仮定に代わり、変動する近傍サイズを表現できるテンソルハイパーグラフモデルを提案する。
  • ハイパーグラフ構造に基づくテンソルラプラシアン正則化項を導入し、局所的多様体情報の保持を図る。
  • 核ノルム(低ランク性のため)、L1ノルム(スパarsityおよび誤差のため)、およびテンソルラプラシアン正則化を組み合わせた最適化問題を定式化する。
  • 係数行列に非負性制約を課すことで、近傍の凸結合を保証し、頑健性を向上させる。
  • 収束保証付きの交替方向乗数法(ADMM)を用いて最適化問題を解く。
  • 多次元テンソル表現を用いて、データポイント間の複雑で高次元の関係をモデリングする。

実験結果

リサーチクエスチョン

  • RQ1データが非一様な密度と非線形性を示す場合、ハイパーグラフベースの正則化が部分空間クラスタリング精度を向上させるか?
  • RQ2ハイパーグラフによる変動する近傍サイズ選択は、固定k近傍モデルに比べてLRRでどのように優れているか?
  • RQ3テンソルベースのラプラシアン正則化は、低ランク部分空間における局所性保持をどの程度向上させるか?
  • RQ4スパarsityおよび非負性制約の統合は、外れ値および重複部分空間に対する頑健性をどの程度向上させるか?
  • RQ5提案手法の計算効率およびスケーラビリティは、既存のLRR変種と比較していかなるものか?

主な発見

  • 2つのムーン型合成データセットでは、TLR-LRRが99%のクラスタリング精度を達成し、ALLRR(79%)およびLRLRR(94%)を大きく上回った。
  • 3つのサークルデータセットでは、TLR-LRRが98%の精度を達成し、ALLRR(93%)およびLRLRR(45%)を上回った。
  • Extended YaleBデータセットでは、TLR-LRRが92%の精度を達成し、LRLRR(88%)およびALLRR(48%)を上回った。
  • USPSデータセットでは、TLR-LRRが97%の精度を達成し、LRLRR(89%)およびALLRR(47%)を上回った。
  • 計算複雑度はO(MN²)を維持しており、LRLRRと同等であり、ALLRR(O(KMN²))よりも効率的である。
  • 提案手法は、合成および実世界の実験において、非線形性、幾何的重複、外れ値に対して優れた耐性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。