QUICK REVIEW

[論文レビュー] Deep Sparse Subspace Clustering

Xi Peng, Jiashi Feng|arXiv (Cornell University)|Sep 25, 2017

Face and Expression Recognition参考文献 54被引用数 26

ひとこと要約

本稿では、深層ニューラルネットワークを用いて階層的な非線形表現を学習することで、線形部分空間仮定に従わないデータに対しても効果的な部分空間クラスタリングを可能にする、新しい深層学習フレームワークであるDeep Sparse Subspace Clustering (DSSC)を提案する。DSSCはスパarsity制約と深層特徴学習を統合し、4つの実世界データセットで最先端の性能を達成し、12の既存手法を顕著に上回る。

ABSTRACT

In this paper, we present a deep extension of Sparse Subspace Clustering, termed Deep Sparse Subspace Clustering (DSSC). Regularized by the unit sphere distribution assumption for the learned deep features, DSSC can infer a new data affinity matrix by simultaneously satisfying the sparsity principle of SSC and the nonlinearity given by neural networks. One of the appealing advantages brought by DSSC is: when original real-world data do not meet the class-specific linear subspace distribution assumption, DSSC can employ neural networks to make the assumption valid with its hierarchical nonlinear transformations. To the best of our knowledge, this is among the first deep learning based subspace clustering methods. Extensive experiments are conducted on four real-world datasets to show the proposed DSSC is significantly superior to 12 existing methods for subspace clustering.

研究の動機と目的

入力空間における線形データ分布を仮定する従来の部分空間クラスタリング手法の限界を解消すること。
深層ニューラルネットワークを活用した非線形特徴変換により、線形部分空間仮定を満たさない実世界データの有効なクラスタリングを可能にすること。
SSCのスパarsity原理と深層ニューラルネットワークの表現力の統合を、統一的かつエンドツーエンドで学習可能なフレームワークとして実現すること。
特に非線形データ環境下において、教師なし部分空間クラスタリングにおける深層学習の実現可能性と優位性を示すこと。

提案手法

DSSCは、入力データの階層的非線形表現を学習する複数の隠れ層を備えた深層ニューラルネットワークを採用し、それらを部分空間構造が線形となる潜在空間に変換する。
本手法は、表現行列へのスパarsity制約を課すことで、ネットワークパラメータと自己表現係数を同時に最適化するための共同目的関数を用いる。
表現の正則化とクラスタリング性能の向上を目的として、深層特徴に単位球面分布の仮定を導入する。
最終的な類似度行列は、ネットワークの最上位層で学習されたスパース表現係数から構築され、その後スペクトルクラスタリングの入力として使用される。
再構成誤差とスパarsity正則化を組み合わせた微分可能な目的関数を用いてエンドツーエンドでモデルを学習する。損失関数は、再構成誤差のFrobeniusノルムを最小化するとともに、ℓ1正則化によりスパarsityを促進する。
活性化関数にはtanh、sigmoid、ReLUを用い、学習率や正則化強度などのハイパーパrameterは交差検証により調整される。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークは、線形部分空間仮定に反するデータに対しても、部分空間クラスタリングを可能にする非線形表現を効果的に学習できるか？
RQ2浅いモデルと比較して、ニューラルネットワークの深さが部分空間クラスタリング性能に与える影響は何か？
RQ3DSSCフレームワークにおいて、どの活性化関数が最も安定的かつ正確なクラスタリング結果をもたらすか？
RQ4スパarsity制約と深層特徴学習を統合することで、標準的なSSCや他の最先端手法と比較して、クラスタリング性能が向上するか？

主な発見

DSSCは、顔写真、物体、手書き数字認識タスクを含む4つの実世界データセットにおいて、12の既存部分空間クラスタリング手法を顕著に上回る性能を発揮した。
BF0502顔写真データセットでは、シグモイド活性化関数を用いたDSSCが、82.67%の正確度、79.01%のNMI、71.69%のARI、66.55%のFscoreを達成し、SSCをそれぞれ3.17%、4.18%、9.32%、2.96%上回った。
2つの隠れ層を有する深層モデル（DSSC-M=2）は、1つの隠れ層を有する浅いモデル（DSSC-M=1）と比較して、全評価指標で一貫して優れた性能を示し、深さの利点を裏付けた。
tanh活性化関数を用いたDSSCは、最も安定した収束行動を示したが、最高の性能を発揮したわけではなかったため、比較実験のデフォルト活性化関数として選定された。
モデルは約90〜100エポックで収束し、MacBookのi5 CPU上では1エポックあたり約2.2秒で学習が完了した。これは中規模データセットに対して実用的な学習時間である。
ハイパーパrameterの選定に対して頑健な性能を示し、tanhベースのバージョンでは学習率2^(-13)と正則化強度90が最適なパラメータとして特定された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。