QUICK REVIEW

[논문 리뷰] Low Rank Approximation and Regression in Input Sparsity Time

Kenneth L. Clarkson, David P. Woodruff|arXiv (Cornell University)|2012. 07. 26.

Sparse and Compressive Sensing Techniques참고 문헌 51인용 수 22

한 줄 요약

이 논문은 입력 스파arsity 시간 알고리즘을 가능하게 하는 희소 임bedding 행렬을 소개한다. 이는 저질서 근사, 회귀, 리지드 스코어 추정에 적용된다. O(nnz(A)) 시간 내에 부분공간 임베딩을 구성함으로써, 과다결정 회귀, 저질서 근사, ℓp-회귀에 대해 최적 또는 근사 최적의 실행 시간을 달성한다. 이는 이전 방법들이 유사한 보장을 위해 Ω(nd log d) 시간이 필요로 했던 것과 비교해 크게 향상된 결과이다.

ABSTRACT

We design a new distribution over $\poly(r \eps^{-1}) imes n$ matrices $S$ so that for any fixed $n imes d$ matrix $A$ of rank $r$, with probability at least 9/10, $ orm{SAx}_2 = (1 \pm \eps) orm{Ax}_2$ simultaneously for all $x \in \mathbb{R}^d$. Such a matrix $S$ is called a \emph{subspace embedding}. Furthermore, $SA$ can be computed in $ nz(A) + \poly(d \eps^{-1})$ time, where $ nz(A)$ is the number of non-zero entries of $A$. This improves over all previous subspace embeddings, which required at least $Ω(nd \log d)$ time to achieve this property. We call our matrices $S$ \emph{sparse embedding matrices}. Using our sparse embedding matrices, we obtain the fastest known algorithms for $(1+\eps)$-approximation for overconstrained least-squares regression, low-rank approximation, approximating all leverage scores, and $\ell_p$-regression. The leading order term in the time complexity of our algorithms is $O( nz(A))$ or $O( nz(A)\log n)$. We optimize the low-order $\poly(d/\eps)$ terms in our running times (or for rank-$k$ approximation, the $n*\poly(k/eps)$ term), and show various tradeoffs. For instance, we also use our methods to design new preconditioners that improve the dependence on $\eps$ in least squares regression to $\log 1/\eps$. Finally, we provide preliminary experimental results which suggest that our algorithms are competitive in practice.

연구 동기 및 목표

모든 x ∈ ℝ^d에 대해 Ax의 ℓ2 노름을 높은 확률로 유지하는 빠르고 희소한 임베딩 행렬 S를 설계한다.
기존의 Ω(nd log d) 경계에 비해 향상된 O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 과다결정 최소제곱 회귀를 달성한다.
최적의 질서-k 해에 대해 (1+ε)-근사해를 얻는 데 O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 n×n 행렬의 저질서 근사를 가능하게 한다.
상수 상대 오차로 n×d 행렬의 모든 리지드 스코어를 O(nnz(A) log n) + Õ(r³) 시간 내에 계산한다.
모든 상수 p ∈ [1, ∞)에 대해 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 ℓp-회귀를 풀며, (1+ε)-상대 오차를 달성한다.

제안 방법

고정된 확률로 부분공간 임베딩 기능을 수행하는, 크기가 poly(rε⁻¹) × n인 희소 행렬 S의 분포를 설계한다.
S를 사용해 SA를 O(nnz(A)) 시간 내에 계산하며, 모든 x ∈ ℝ^d에 대해 ||SAx||₂ ≈ (1±ε)||Ax||₂를 유지한다.
희소 임베딩 행렬을 리지드 스코어 샘플링 및 무작위 허미트 변환과 조합하여 저질서 근사를 가속화한다.
두 단계 샘플링 과정을 사용한다: 먼저 무작위 투영 Π₂를 통해 행렬의 노름을 추정하고, 그 추정치에 기반해 행렬을 샘플링한다.
이전 연구에서 제안된 잘 조절된 기저 프레임워크를 활용하여, 희소 임베딩에 적응시켜 샘플 복잡도와 실행 시간을 감소시킨다.
실행 시간 내의 다항식 계수를 최적화하고, 알고리즘에서 정확도와 효율성 간의 트레이드오프를 탐색한다.

실험 결과

연구 질문

RQ1입력 스파arsity 시간 O(nnz(A)) 내에, 모든 Ax의 ℓ2 노름을 높은 확률로 유지하는 부분공간 임베딩 행렬 S를 구성할 수 있는가?
RQ2O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 과다결정 최소제곱 회귀에 대해 (1+ε)-근사해를 달성할 수 있는가?
RQ3O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 n×n 행렬의 (1+ε)-근사 저질서 분해를 계산할 수 있는가?
RQ4O(nnz(A) log n) + Õ(r³) 시간 내에 n×d 행렬의 모든 리지드 스코어를 상수 상대 오차로 계산할 수 있는가?
RQ5모든 상수 p ∈ [1, ∞)에 대해 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 ℓp-회귀를 풀며, (1+ε)-상대 오차를 달성할 수 있는가?

주요 결과

제안된 희소 임베딩 행렬은 모든 x ∈ ℝ^d에 대해 ||SAx||₂ ≈ (1±ε)||Ax||₂를 확률 9/10 이상로 유지하면서 SA를 O(nnz(A)) 시간 내에 계산할 수 있다.
과다결정 ℓ2-회귀를 위한 알고리즘은 O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 실행되며, 이는 기존의 Ω(nd log d) 경계를 초월한다.
저질서 근사에 대해 알고리즘은 O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 실행되며, 최적의 질서-k 해에 대해 (1+ε)-근사해를 달성한다.
n×d 행렬의 모든 리지드 스코어는 O(nnz(A) log n) + Õ(r³) 시간 내에 상수 상대 오차로 근사할 수 있다.
모든 상수 p ∈ [1, ∞)에 대해 ℓp-회귀 알고리즘이 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 실행되며, (1+ε)-상대 오차를 달성한다.
초기 실험 결과에 따르면 알고리즘이 실제 적용에서 잘 작동하며, 샘플링을 줄여도 최적의 질서-k 근사에 가까운 저질서 근사 오차를 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.