Skip to main content
QUICK REVIEW

[論文レビュー] Nonparametric Canonical Correlation Analysis

Tomer Michaeli, Weiran Wang|arXiv (Cornell University)|Nov 16, 2015
Face and Expression Recognition参考文献 38被引用数 39
ひとこと要約

この論文は、再帰的再生ヒルバート空間に制限を設けない非パrametricな正準相関分析(NCCA)を提案する。NCCAは、関連する同時密度に基づいて導出される演算子の特異値分解を活用することで、カーネル行列の逆行列計算を回避し、計算コストが低く、KCCAを上回り、DCCAと同等の性能を達成する。中程度のデータセットにおいては、著しく高速である。

ABSTRACT

Canonical correlation analysis (CCA) is a classical representation learning technique for finding correlated variables in multi-view data. Several nonlinear extensions of the original linear CCA have been proposed, including kernel and deep neural network methods. These approaches seek maximally correlated projections among families of functions, which the user specifies (by choosing a kernel or neural network structure), and are computationally demanding. Interestingly, the theory of nonlinear CCA, without functional restrictions, had been studied in the population setting by Lancaster already in the 1950s, but these results have not inspired practical algorithms. We revisit Lancaster's theory to devise a practical algorithm for nonparametric CCA (NCCA). Specifically, we show that the solution can be expressed in terms of the singular value decomposition of a certain operator associated with the joint density of the views. Thus, by estimating the population density from data, NCCA reduces to solving an eigenvalue system, superficially like kernel CCA but, importantly, without requiring the inversion of any kernel matrix. We also derive a partially linear CCA (PLCCA) variant in which one of the views undergoes a linear projection while the other is nonparametric. Using a kernel density estimate based on a small number of nearest neighbors, our NCCA and PLCCA algorithms are memory-efficient, often run much faster, and perform better than kernel CCA and comparable to deep CCA.

研究の動機と目的

  • 再帰的再生ヒルバート空間のような事前に定義された関数クラスに制限を設けない、実用的で非パラメトリックなCCAアルゴリズムの開発。
  • 1950年代のランカスターの母集団レベルにおける非線形CCAの理論的結果を活用し、スケーラブルで効率的なアルゴリズムを構築すること。
  • カーネル行列の逆行列計算やエンドツーエンドの学習を回避することで、カーネルCCAやディープCCAの計算的非効率性を是正すること。
  • 一方の視点に非線形射影、もう一方に線形射影を用いる部分線形CCAの変種(PLCCA)を導入すること。
  • 実世界のデータセットにおいて、最先端の性能を示し、速度とメモリ効率が向上することを実証すること。

提案手法

  • NCCAは、2つの視点の同時密度によって定義される演算子の特異ベクトルとして、最適な非線形射影を定式化する。
  • カーネスティック近傍法に基づくカーネル密度推定を用いて母集団密度を推定し、明示的なカーネル行列の計算を回避する。
  • 解は、2つの視点間の局所的相互情報量に基づくカーネルを含む固有値問題に帰着する。
  • PLCCAは、母集団設定下で閉形式の解として導出され、一方の視点に非線形予測子、もう一方に線形予測子を用いる。
  • 非線形回帰を用いてデータから最適な非線形予測子を推定し、計算効率を維持する。
  • カーネル行列の逆行列計算を回避するため、KCCA や DCCA と比較して、より高速なトレーニングと低いメモリ使用量を実現する。

実験結果

リサーチクエスチョン

  • RQ1制限のない非線形CCAのためのランカスターの理論的枠組みを、実用的でスケーラブルなアルゴリズムに翻訳できるか?
  • RQ2カーネル行列の逆行列計算やディープネットワークのトレーニングを必要としない非パラメトリックCCA手法を設計できるか?
  • RQ3NCCAは、DCCAと同等の性能を達成しながら、著しく高速で、よりメモリ効率が良いか?
  • RQ4部分線形CCAの変種は、モデルの柔軟性と計算効率の良いトレードオフを提供できるか?
  • RQ5密度推定の方法(例:k-NN KDE)の選択が、NCCAの性能とスケーラビリティに与える影響は何か?

主な発見

  • MNISTではNCCAがクラス分離をほぼ完璧に達成し、クラスタリング精度と分類性能でDCCAと同等の結果を示した。
  • MNISTの5万件サブセットにおいて、NCCAはテスト誤差率4.7%を達成し、KCCA(5.9%)を上回り、DCCA(2.9%)に近づいた。
  • カーネル行列の逆行列計算とエンドツーエンドのトレーニングを回避するため、NCCAはKCCAやDCCAと比較して著しく高速かつメモリ効率が良い。
  • PLCCAは、実世界のデータにおいてDCCAと同等の性能を示し、CCA や KCCA よりも顕著に優れており、特に一方の視点が本質的に線形である場合に顕著である。
  • 訓練データを減らしてもNCCAの性能は頑健で、完全なMNIST訓練セットの10%でも、KCCAを上回った。
  • k-NNに基づくKDEの使用によりメモリ効率が向上し、近似最近傍探索を組み込むことでさらに高速化が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。