Skip to main content
QUICK REVIEW

[論文レビュー] Low Rank Approximation and Regression in Input Sparsity Time

Kenneth L. Clarkson, David P. Woodruff|arXiv (Cornell University)|Jul 26, 2012
Sparse and Compressive Sensing Techniques参考文献 51被引用数 22
ひとこと要約

この論文では、低ランク近似、回帰、レバレッジスコア推定のための入力スパarsity時間アルゴリズムを可能にするスパース埋め込み行列を導入する。O(nnz(A))時間で部分空間埋め込みを構築することで、過剰決定型回帰、低ランク近似、ℓp-回帰において最適またはほぼ最適な実行時間を達成し、類似の保証を得るために従来のΩ(nd log d)時間が必要だった手法と比べて顕著な改善を実現する。

ABSTRACT

We design a new distribution over $\poly(r \eps^{-1}) imes n$ matrices $S$ so that for any fixed $n imes d$ matrix $A$ of rank $r$, with probability at least 9/10, $ orm{SAx}_2 = (1 \pm \eps) orm{Ax}_2$ simultaneously for all $x \in \mathbb{R}^d$. Such a matrix $S$ is called a \emph{subspace embedding}. Furthermore, $SA$ can be computed in $ nz(A) + \poly(d \eps^{-1})$ time, where $ nz(A)$ is the number of non-zero entries of $A$. This improves over all previous subspace embeddings, which required at least $Ω(nd \log d)$ time to achieve this property. We call our matrices $S$ \emph{sparse embedding matrices}. Using our sparse embedding matrices, we obtain the fastest known algorithms for $(1+\eps)$-approximation for overconstrained least-squares regression, low-rank approximation, approximating all leverage scores, and $\ell_p$-regression. The leading order term in the time complexity of our algorithms is $O( nz(A))$ or $O( nz(A)\log n)$. We optimize the low-order $\poly(d/\eps)$ terms in our running times (or for rank-$k$ approximation, the $n*\poly(k/eps)$ term), and show various tradeoffs. For instance, we also use our methods to design new preconditioners that improve the dependence on $\eps$ in least squares regression to $\log 1/\eps$. Finally, we provide preliminary experimental results which suggest that our algorithms are competitive in practice.

研究の動機と目的

  • すべてのx ∈ ℝ^dに対してAxのℓ2ノルムを高確率で保つような、スパース行列Sを高速に設計すること。
  • 従来のΩ(nd log d)の境界を改善し、O(nnz(A)) + Õ(d³ε⁻²)時間で過剰決定型最小二乗回帰を達成すること。
  • n×n行列の低ランク近似をO(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵)時間で行い、最良のランク-k解への(1+ε)-近似を得ること。
  • n×d行列のすべてのレバレッジスコアを、定数の相対誤差でO(nnz(A) log n) + Õ(r³)時間で計算すること。
  • 任意の定数p ∈ [1, ∞)に対して、O(nnz(A) log n) + poly(rε⁻¹)時間でℓp-回帰を解き、(1+ε)-相対誤差を得ること。

提案手法

  • 高確率で部分空間埋め込みとして機能する、サイズがpoly(rε⁻¹) × nのスパース行列Sの確率分布を設計すること。
  • Sを用いてSAをO(nnz(A))時間で計算し、すべてのx ∈ ℝ^dに対して||SAx||₂ ≈ (1±ε)||Ax||₂を保つこと。
  • 低ランク近似を高速化するために、スパース埋め込み行列をレバレッジスコアサンプリングおよびランダム化ハダマード変換と組み合わせて用いること。
  • 2段階のサンプリングプロセスを用いる:まずランダム射影Π₂で行のノルムを推定し、その後これらの推定値に基づいて行をサンプリングしてℓp-回帰を実行すること。
  • 先行研究のwell-conditioned basisフレームワークをスパース埋め込みに適応し、サンプルの必要数と実行時間を削減すること。
  • 実行時間の多項式係数を最適化し、アルゴリズムにおける精度と効率のトレードオフを調査すること。

実験結果

リサーチクエスチョン

  • RQ1入力スパarsity時間O(nnz(A))で、すべてのAxのℓ2ノルムを高確率で保つ部分空間埋め込み行列Sを構築できるか?
  • RQ2O(nnz(A)) + Õ(d³ε⁻²)時間で、過剰決定型最小二乗回帰の(1+ε)-近似解を得られるか?
  • RQ3O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵)時間で、n×n行列の(1+ε)-近似低ランク分解を計算できるか?
  • RQ4O(nnz(A) log n) + Õ(r³)時間で、n×d行列のすべてのレバレッジスコアを定数の相対誤差で計算できるか?
  • RQ5任意の定数p ∈ [1, ∞)に対して、O(nnz(A) log n) + poly(rε⁻¹)時間でℓp-回帰を解き、(1+ε)-相対誤差を得られるか?

主な発見

  • 提案されたスパース埋め込み行列により、すべてのx ∈ ℝ^dに対して||SAx||₂ ≈ (1±ε)||Ax||₂を確率9/10以上で保つようにSAをO(nnz(A))時間で計算可能である。
  • 過剰決定型ℓ2-回帰のためのアルゴリズムはO(nnz(A)) + Õ(d³ε⁻²)時間で実行され、従来のΩ(nd log d)の境界を改善する。
  • 低ランク近似においては、O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵)時間で実行され、最良のランク-k解への(1+ε)-近似が達成される。
  • n×d行列のすべてのレバレッジスコアは、O(nnz(A) log n) + Õ(r³)時間で定数の相対誤差で近似可能である。
  • 任意の定数p ∈ [1, ∞)に対して、O(nnz(A) log n) + poly(rε⁻¹)時間でℓp-回帰アルゴリズムが実行され、(1+ε)-相対誤差が達成される。
  • 予備の実験では、アルゴリズムが実際の応用においても良好に動作し、サンプリングを削減しても、最良のランク-k近似に近い低ランク近似誤差を達成していることが示唆されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。