QUICK REVIEW

[論文レビュー] Building Deep Networks on Grassmann Manifolds

Zhiwu Huang, Jiqing Wu|arXiv (Cornell University)|Nov 17, 2016

Morphological variations and asymmetry被引用数 47

ひとこと要約

本稿では、完全結合層、正規化層、プーリング層、出力層をリーマン幾何に一般化することで、グレイスマン多様体上でのエンドツーエンド学習のための深層学習アーキテクチャであるGrassmannネットワーク（GrNet）を提案する。多様体に適した層として、フルランクマッピング、再正規直交化、射影プーリング、射影マッピングを導入し、QR分解を用いた行列一般化バックプロパゲーションを導出し、視覚認識タスクで最先端の性能を達成した。

ABSTRACT

Learning representations on Grassmann manifolds is popular in quite a few visual recognition tasks. In order to enable deep learning on Grassmann manifolds, this paper proposes a deep network architecture by generalizing the Euclidean network paradigm to Grassmann manifolds. In particular, we design full rank mapping layers to transform input Grassmannian data to more desirable ones, exploit re-orthonormalization layers to normalize the resulting matrices, study projection pooling layers to reduce the model complexity in the Grassmannian context, and devise projection mapping layers to respect Grassmannian geometry and meanwhile achieve Euclidean forms for regular output layers. To train the Grassmann networks, we exploit a stochastic gradient descent setting on manifolds of the connection weights, and study a matrix generalization of backpropagation to update the structured data. The evaluations on three visual recognition tasks show that our Grassmann networks have clear advantages over existing Grassmann learning methods, and achieve results comparable with state-of-the-art approaches.

研究の動機と目的

視覚認識で広く用いられるが、従来の深層ネットワークではアクセスできなかったグレイスマン多様体上での深層学習を可能にすること。
浅いモデルや接空間近似、計算コストの高いカーネルベース手法に依存する既存のグレイスマン学習手法の限界を克服すること。
グレイスマンデータの内在的なリーマン幾何を尊重する、完全に微分可能でエンドツーエンドの深層ネットワークアーキテクチャを構築すること。
特にQR分解を勾配計算に組み込むことで、多様体上の構造的行列データへのバックプロパゲーションを一般化すること。
グレイスマン多様体上での深層学習が、幾何的構造を保持しつつ、最先端の手法と同等の性能を達成できることを示すこと。

提案手法

入力のグレイスマンデータを、正規直交行列を用いてより判別性の高い表現に変換するフルランクマッピング層を提案する。
基底行列の正規直交性を維持することで、グレイスマン多様体上に留まるよう再正規直交化層を導入する。
低次元部分空間への射影を施すことで次元削減を行う射影プーリング層を設計し、グレイスマン幾何を尊重する。
グレイスマンデータをユークリッド空間形式に変換する射影マッピング層を開発し、標準的な全結合層との互換性を確保する。
接続重みについてリーマン多様体上での確率的勾配降下法を一般化し、QR分解を用いた行列ベースのバックプロパゲーション則を導出する。
距離測度として、真の測地線距離をスケール因子 $ \sqrt{2} $ まで近似する $ d_p(X_1,X_2) = 2^{-1/2} \|X_1X_1^T - X_2X_2^T\|_F $ を採用する。

実験結果

リサーチクエスチョン

RQ1グレイスマン多様体上に、エンドツーエンド表現学習が可能な深層ニューラルネットワークアーキテクチャを構築できるか？
RQ2全結合層、正規化、プーリング、出力層といった標準的な深層学習コンponentsを、グレイスマン多様体のリーマン幾何にどのように一般化できるか？
RQ3構造的行列データ（例：正規直交基底）を多様体上を通過する勾配計算において、効果的かつ微分可能な方法でバックプロパゲーションを実行するにはどうすればよいか？
RQ4提案されたネットワークは、既存の浅いグレイスマン学習手法を視覚認識タスクで上回ることができるか？
RQ5GrNetの幾何的設計は、ユークリッドベースライン（例：SPDNet）と比較して、収束性と性能をどの程度向上させるか？

主な発見

GrNet-2BlocksはAFEWで34.23%の正確度を達成し、以前の最良手法（SPDNet）の34.23%と同等または上回った。
HDM05では、GrNet-2Blocksが59.23%の正確度（標準偏差1.78%）を達成し、以前の最先端手法GDA（46.87%）およびDCC（41.34%）を顕著に上回った。
PaSC1およびPaSC2では、それぞれ80.52%および72.76%の正確度を達成し、最良の既存手法SPDNet（80.12%および72.83%）と同等または上回った。
GrNetはSPDNetよりも収束が早く、HDM05では検証正確度が最大40%向上し、AFEWでは12%向上したが、訓練エポック数は少ない。
1エポックあたりの学習時間はGrNet（10–13分）がSPDNet（2–15分）よりも長かったが、理論的分析では、$ d \times q $（$ q \approx 10 $）の低次元正規直交行列を扱うGrNetの方が、$ d \times d $ のSPD行列を扱うSPDNetよりも高速であると示唆された。
アブレーションスタディにより、複数のFRMapおよびW-ProjPoolingの組み合わせが性能向上に寄与することが確認され、全データセットでM-FRMapとW-ProjPoolingの組み合わせが最良の結果をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。