Skip to main content
QUICK REVIEW

[論文レビュー] CUR Algorithm for Partially Observed Matrices

Miao Xu, Rong Jin|arXiv (Cornell University)|Nov 4, 2014
Sparse and Compressive Sensing Techniques参考文献 55被引用数 28
ひとこと要約

本稿では、完全な行列アクセスを必要とせず、部分的に観測された行列に対して低ランク近似を達成するために、ランダムに抽出された行、列、および要素を組み合わせた新しいCUR行列分解アルゴリズムCUR+を提案する。スペクトルノルムにおける相対誤差バウンドを提供し、ランク-$r$の$n\times n$行列を正確に回復するには、$O(nr\ln r)$個の観測エントリで十分であることを示しており、従来の行列補完手法に比べて、観測数の複雑さを顕著に改善している。

ABSTRACT

CUR matrix decomposition computes the low rank approximation of a given matrix by using the actual rows and columns of the matrix. It has been a very useful tool for handling large matrices. One limitation with the existing algorithms for CUR matrix decomposition is that they need an access to the {\it full} matrix, a requirement that can be difficult to fulfill in many real world applications. In this work, we alleviate this limitation by developing a CUR decomposition algorithm for partially observed matrices. In particular, the proposed algorithm computes the low rank approximation of the target matrix based on (i) the randomly sampled rows and columns, and (ii) a subset of observed entries that are randomly sampled from the matrix. Our analysis shows the relative error bound, measured by spectral norm, for the proposed algorithm when the target matrix is of full rank. We also show that only $O(n r\ln r)$ observed entries are needed by the proposed algorithm to perfectly recover a rank $r$ matrix of size $n imes n$, which improves the sample complexity of the existing algorithms for matrix completion. Empirical studies on both synthetic and real-world datasets verify our theoretical claims and demonstrate the effectiveness of the proposed algorithm.

研究の動機と目的

  • 欠損データを伴う実世界の応用において、完全な行列アクセスを必要とする従来のCURアルゴリズムの制限を克服すること。
  • 行列の一部のエントリとランダムに抽出された行・列のみが利用可能な状況において、計算効率の良い低ランク近似手法を開発すること。
  • 部分観測下における低ランクおよびフルランク行列の近似誤差について、理論的保証を提供すること。
  • 標準的な行列補完法および適応的サンプリング手法に比べ、行列回復の観測数の複雑さを改善すること。

提案手法

  • アルゴリズムは、目的行列からランダムに抽出された行、列、および観測済みエントリを組み合わせて、低ランク近似を構築する。
  • トレースノルム正則化最適化を解くのではなく、標準的な回帰問題として問題を定式化することで、計算効率を向上させる。
  • サンプルされた行と列に基づいて射影行列を推定するために、修正されたニストローム型アプローチを用いる。
  • スペクトルノルム誤差のバウンドを導出する理論的分析には、濃度不等式と行列摂動理論を用いる。
  • 射影部分空間の推定における逆演算の安定化のため、正則化パラメータ$\eta$を導入する。
  • 行列のスペクトル構造に関連するパrameter$\mu(\eta)$を用いて、サンプルされた部分行列の条件数を制御することで、アルゴリズムのロバスト性を確保する。

実験結果

リサーチクエスチョン

  • RQ1部分的なエントリとランダムに抽出された行・列のみが利用可能な状況でも、CURに基づく低ランク近似を効果的に計算できるか?
  • RQ2フルランク行列の信頼性のある低ランク近似を達成するために、最低限必要な観測エントリ数はどの程度か?
  • RQ3部分観測下において、提案手法のスペクトルノルム誤差は、行列サイズおよびランクに関してどのようにスケーリングされるか?
  • RQ4提案手法は、フルランク行列に対して、従来の行列補完技術に比べてより優れた観測数の複雑さを達成できるか?
  • RQ5相対誤差および失敗確率の観点から、CUR+近似の理論的誤差バウンドは何か?

主な発見

  • 提案されたCUR+アルゴリズムは、部分観測下における低ランクおよびフルランク行列の両方に対して、スペクトルノルムにおける相対誤差バウンドを達成する。
  • ランク-$r$の$n\times n$行列を正確に回復するには、$O(nr\ln r)$個の観測エントリで十分であり、これは標準的な行列補完手法の$O(nr\ln^2 n)$バウンドを上回る。
  • CUR+の観測数の複雑さは、適応的サンプリング手法の$O(nr^{3/2}\ln r)$バウンドを下回っており、高ランクまたはフルランク行列に対してより効率的である。
  • 理論的分析により、高確率$1-4e^{-t}$で、近似誤差が$O(\delta)$にバウンドされることを示した。ここで$\delta$はスペクトル偏差を制御する。
  • 合成データおよび実世界のデータセットを用いた実験により、理論的予想が妥当であることが確認され、部分観測下における低ランク近似の有効性が示された。
  • 観測エントリ数が少ない状況では、アルゴリズムはナードル行列補完法や不偏推定法を上回り、そのロバスト性と効率的な推定戦略のおかげである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。