QUICK REVIEW

[論文レビュー] Sparse Canonical Correlation Analysis

David R. Hardoon, John Shawe‐Taylor|ArXiv.org|Aug 19, 2009

Face and Expression Recognition参考文献 24被引用数 18

ひとこと要約

本稿では、1つの視点を原始的（入力）空間に、もう1つの視点を双対的（カーネル）空間に投影することで、スパースで解釈可能な意味的空間を学習する凸最小二乗法であるスパース線形相関分析（SCCA）を提案する。特徴次元が大きい場合、SCCAは特徴数を著しく削減（例：460対49,212語）しながらも、KCCAを上回る性能を示し、マテリアル検索タスクで優れた性能を発揮する。

ABSTRACT

We present a novel method for solving Canonical Correlation Analysis (CCA) in a sparse convex framework using a least squares approach. The presented method focuses on the scenario when one is interested in (or limited to) a primal representation for the first view while having a dual representation for the second view. Sparse CCA (SCCA) minimises the number of features used in both the primal and dual projections while maximising the correlation between the two views. The method is demonstrated on two paired corpuses of English-French and English-Spanish for mate-retrieval. We are able to observe, in the mate-retreival, that when the number of the original features is large SCCA outperforms Kernel CCA (KCCA), learning the common semantic space from a sparse set of features.

研究の動機と目的

従来のCCAが線形結合においてすべての特徴を用いるため、スパarsityと解釈可能性に欠けるという問題に対処する。
原始的・双対的フレームワーク内でスパース特徴選択を可能にする、凸的で最小二乗法のCCA定式化を開発する。
1つの視点が入力空間に、もう1つの視点がカーネル空間にある場合に、共通の意味的空間を効率的に学習できるようにする。
高次元設定においてスパース表現が密な表現を上回ることを示す。特に意味的マッチングタスクにおいて顕著である。

提案手法

SCCAを、原始的および双対的射影にL1正則化を施した正則化最小二乗誤差を最小化する凸最適化問題として定式化する。
相関を最大化しつつスパarsityを維持するように、特徴を段階的に選択するグリーディアルゴリズムを用いる。
1つの視点を入力空間に、もう1つの視点をカーネル空間に置く、原始的・双対的フレームワークにおけるCCAの初めての定式化である。
原始的（入力）および双対的（カーネル）射影ベクトルの両方にL1正則化を適用してスパarsityを強制する。
共分散行列の代わりに学習データそのものを使って標準CCAを再定式化することで最適化問題を導出し、計算効率を向上させる。
共分散行列の計算と逆行列の計算を回避するため、最小二乗法による射影重みの計算を行う。

実験結果

リサーチクエスチョン

RQ1すべての特徴を用いずに高い相関を維持しつつ、スパースで凸的なCCAの定式化を開発できるか？
RQ21つの視点を原始的空間に、もう1つの視点を双対的空間に置く混合原始的・双対的フレームワークで、高次元データに対する性能が向上するか？
RQ3元の特徴数が多い場合に、スパースCCAは意味的マッチングタスクでカーネルCCAを上回ることができるか？
RQ4特徴選択におけるスパarsityは、学習された意味的空間の解釈可能性と性能にどのように影響するか？

主な発見

英語-スペイン語コーパス（49,212語）のように、元の特徴数が多い場合、SCCAはマテリアル検索タスクでKCCAを上回る性能を示す。
英語-フランス語コーパスでは、SCCAは142語と42ドキュメントでKCCA（2,794語と50ドキュメント）と同等の性能を達成する。
英語-スペイン語の実験では、SCCAはすべての射影数において一貫してKCCAを上回り、高次元設定における頑健性を示している。
英語-スペイン語コーパスでは、SCCAは最大460語のスパarsityを達成したが、KCCAは49,212語すべての特徴を使用しており、顕著な特徴削減が確認された。
結果から、特徴数が多すぎると性能が低下する可能性があり、スパースな特徴選択がより良い一般化性能と解釈可能性をもたらすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。