QUICK REVIEW

[論文レビュー] Provable Tensor Factorization with Missing Data

Prateek Jain, Sewoong Oh|arXiv (Cornell University)|Jun 11, 2014

Tensor decomposition and applications参考文献 26被引用数 125

ひとこと要約

本稿は、低ランク直交CP分解の下で欠損エントリから正確なテンソル補完を保証する収束性を有する交互最小化アルゴリズムを提案する。標準的な非一様性および直交性仮定の下で、$O(n^{3/2}r^{5}\mathrm{log}^4 n)$ 個のランダムに選択されたエントリが、$n \times n \times n$ のランク-$r$ テンソルを高確率で正確に回復するために十分であることを確立している。これは、ランダムグラフのスペクトル結果を一般化し、良好な初期化からのグローバル収束を証明することによって達成される。

ABSTRACT

We study the problem of low-rank tensor factorization in the presence of missing data. We ask the following question: how many sampled entries do we need, to efficiently and exactly reconstruct a tensor with a low-rank orthogonal decomposition? We propose a novel alternating minimization based method which iteratively refines estimates of the singular vectors. We show that under certain standard assumptions, our method can recover a three-mode $n imes n imes n$ dimensional rank-$r$ tensor exactly from $O(n^{3/2} r^5 \log^4 n)$ randomly sampled entries. In the process of proving this result, we solve two challenging sub-problems for tensors with missing data. First, in the process of analyzing the initialization step, we prove a generalization of a celebrated result by Szemerédie et al. on the spectrum of random graphs. Next, we prove global convergence of alternating minimization with a good initialization. Simulations suggest that the dependence of the sample size on dimensionality $n$ is indeed tight.

研究の動機と目的

観測されたエントリの部分集合からの正確なテンソル補完の課題に取り組むこと、特に既存の手法が理論的保証を欠く高次元テンソルに対して。
欠損データ下での直交CP分解を伴う低ランクテンソルの回復に向けた保証付きのサンプル複雑度バインディングを確立すること。
良好な初期化から真の分解へグローバル収束を保証するアルゴリズムを開発すること、局所的最小値を避けること。
ランダムグラフのスペクトル結果を一般化し、初期化ステップの分析を可能にする。
広く使われているが理論的裏付けが乏しいテンソル補完における交互最小化の理論的根拠を提供すること。

提案手法

直交CP分解の下で、テンソルの特異ベクトル（成分）の推定値を繰り返し改善する交互最小化アルゴリズムを提案する。
ランダムにサンプリングされたテンソルのスペクトル射影に基づく、独自の初期化手順を採用し、ランダムグラフのスペクトルに関するSzemerédiの結果の一般化を活用する。
最適化を観測済みエントリに制限するため、テンソル射影作用素 $\mathcal{P}_{\Omega}(\cdot)$ を用い、観測済みテンソルと推定テンソルの差のフロベニウスノルムを最小化する。
摂動バインディングとベクトルのずれ項（$\mathbf{d}_\ell$, $\Delta^{\sigma}_\ell$）を用いた構造的解析により、収束を制御する。
集中不等式と非一様性仮定を用いて、各反復における誤差をバインディングし、収束を保証する。
適切なサンプリング条件の下で、アルゴリズムが真の成分の近傍に留まり、各ステップで誤差が減少することを示すことにより、グローバル収束を証明する。

実験結果

リサーチクエスチョン

RQ1直交CP分解を伴う低ランク対称テンソルを正確に回復するための、ランダムに選択されたエントリの最小数は何か？
RQ2欠損データ下で、テンソル補完に対する交互最小化が良好な初期化からグローバルに収束することを証明できるか？
RQ3ランダムテンソルのスペクトル特性をどのように分析すれば、テンソル因子分解の信頼性の高い初期化を保証できるか？
RQ4サンプル複雑度はテンソル成分の非一様性に依存するか？次元 $n$ およびランク $r$ に対してどのようにスケーリングされるか？
RQ5行列補完の理論的保証を、欠損データ下で保証付き回復が可能な高次元テンソルへ拡張できるか？

主な発見

提案された交互最小化アルゴリズムは、$O(n^{3/2}r^5\log^4 n)$ 個のランダムに選択されたエントリから、高確率で三モード $n \times n \times n$ のランク-$r$ テンソルを正確に回復できる。
サンプル複雑度バインディングは全エントリ数（$n^3$）に対して非線形的であり、低ランクの巨大テンソルに対して効率的である。
初期化ステップは、ランダムテンソルの一般化スペクトル結果のおかげで保証的に正確であり、Szemerédiの定理（ランダムグラフのスペクトル）を高次元構造へ拡張した。
良好な初期化の下で、交互最小化のグローバル収束が証明され、誤差は単調に減少し、真の成分へ収束する。
シミュレーションにより、サンプル複雑度における $n$ の依存性がタイトであることが確認され、理論的バインディングの実用的妥当性が裏付けられる。
標準的な非一様性仮定の下で正確な回復が達成され、これはテンソルの質量がエントリ全体にわたって集中するのを制御する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。