Skip to main content
QUICK REVIEW

[論文レビュー] Deep Variational Canonical Correlation Analysis

Weiran Wang, Yan, Xinchen|arXiv (Cornell University)|Oct 11, 2016
Face and Expression Recognition参考文献 35被引用数 99
ひとこと要約

Deep Variational CCA (VCCA) および VCCA-private を導入し、共有潜在表現を学習し、プライベートなビュー特有情報を分離する、ニューラルネットワークを用いた確率的なマルチビュー模型。可換な変分トレーニングとサンプル生成を実現。

ABSTRACT

We present deep variational canonical correlation analysis (VCCA), a deep multi-view learning model that extends the latent variable model interpretation of linear CCA to nonlinear observation models parameterized by deep neural networks. We derive variational lower bounds of the data likelihood by parameterizing the posterior probability of the latent variables from the view that is available at test time. We also propose a variant of VCCA called VCCA-private that can, in addition to the "common variables" underlying both views, extract the "private variables" within each view, and disentangles the shared and private information for multi-view data without hard supervision. Experimental results on real-world datasets show that our methods are competitive across domains.

研究の動機と目的

  • 線形 CCA の潜在変数解釈を、非線形で深層観測モデルへ拡張する。
  • テスト時のビューに基づくポスタリオを用いてデータ尤度の変分下界を導出する。
  • ビュー間で共有(共通)およびプライベート情報を分離するために VCCA-private を導入する。
  • 確率勾配法と再パラメータ化を用いたスケーラブルなエンドツーエンド訓練を提供する。
  • 画像-画像、音声-発話、画像-テキストのベンチマークで競争力のある性能を示す。

提案手法

  • 潜在変数 z を平均がゼロで分散が1のガウス事前分布 p(z) から生成される、非線形観測 pθ(x|z) および pθ(y|z) として x および y をモデル化する。
  • pθ(z|x) を qφ(z|x) で近似し、L(x,y;θ,φ) を介して pθ(x,y) の変分下界を最大化する。
  • 再パラメータ化トリックを用いて qφ(z|x) から z をサンプルし、境界のモンテカルロ推定を行う。
  • 再構成項を log pθ(x|z) および log pθ(y|z) として latent noise Σ を介して解釈することで MVAE との関連を築き、自己符号化器風の目的と結びつける。
  • qφ(z|x)qφ(hx|x)qφ(hy|y) による因子化後方分布と対応する下界を持つ private 変数 hx, yh を導入して VCCA-private を提供する。
  • Adam を用いる確率的勾配降下により訓練可能で、エンドツーエンド最適化を実現する。

実験結果

リサーチクエスチョン

  • RQ1深い確率モデルは、非線形なビュー生成過程を許しつつ、複数のビューの共通潜在表現を回復できるか。
  • RQ2変分目的が、多ビュー情報の潜在空間の推論とサンプリングを計算可能にするか。
  • RQ3監督なしで、プライベートなビュー特異的潜在変数を導入することで、分離性と再構成を改善できるか。
  • RQ4VCCA および VCCA-private は、従来のマルチビュー手法と比べて画像-画像、音声-発話、画像-テキストのベンチマークでどのように性能を示すか。
  • RQ5学習された表現は、テスト時にすべてのビューにアクセスできる場合とできない場合の両方で、下流タスクをサポートできるか。

主な発見

MethodMNIST Error (%)XRMB PER (%)Flickr mAP (%)
Original inputs13.1*37.6+0.480
CCA19.1*29.4+0.529
DCCA2.9*25.4+0.573
DCCAE2.2*25.40.573
Contrastive2.724.60.565
MVAE (orig)11.7*29.40.477
MVAE-var---
VCCA3.028.00.605
VCCA-private2.425.20.615
bi-VCCA--0.606
bi-VCCA-private--0.626
  • VCCA および VCCA-private は、データセット(MNIST、XRMB、MIR-Flickr)全体で競争力のあるまたは優れた下流性能を達成している。
  • VCCA は、変分下界と再パラメータ化を用いた確率的勾配法でエンドツーエンドに訓練できる。
  • VCCA-private は共有情報とプライベート情報を分離し、再構成品質と潜在空間でのクラス分離を改善する。
  • MNIST では、VCCA は 3.0%(MNIST error)で、VCCA-private は 2.4%(MNIST error)を達成した。
  • XRMB では、VCCA が 28.0% PER、VCCA-private が 25.2% PER を達成し、競争力のある音素認識性能を示している。
  • MIR-Flickr では、VCCA および VCCA-private がいくつかのベースラインより高い mAP を達成し、単一モダリティ検索とクロスモーダル解析を効果的に実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。