[논문 리뷰] Low Rank Approximation and Regression in Input Sparsity Time
이 논문은 입력 스파arsity 시간 알고리즘을 가능하게 하는 희소 임bedding 행렬을 소개한다. 이는 저질서 근사, 회귀, 리지드 스코어 추정에 적용된다. O(nnz(A)) 시간 내에 부분공간 임베딩을 구성함으로써, 과다결정 회귀, 저질서 근사, ℓp-회귀에 대해 최적 또는 근사 최적의 실행 시간을 달성한다. 이는 이전 방법들이 유사한 보장을 위해 Ω(nd log d) 시간이 필요로 했던 것과 비교해 크게 향상된 결과이다.
We design a new distribution over $\poly(r \eps^{-1}) imes n$ matrices $S$ so that for any fixed $n imes d$ matrix $A$ of rank $r$, with probability at least 9/10, $ orm{SAx}_2 = (1 \pm \eps) orm{Ax}_2$ simultaneously for all $x \in \mathbb{R}^d$. Such a matrix $S$ is called a \emph{subspace embedding}. Furthermore, $SA$ can be computed in $ nz(A) + \poly(d \eps^{-1})$ time, where $ nz(A)$ is the number of non-zero entries of $A$. This improves over all previous subspace embeddings, which required at least $Ω(nd \log d)$ time to achieve this property. We call our matrices $S$ \emph{sparse embedding matrices}. Using our sparse embedding matrices, we obtain the fastest known algorithms for $(1+\eps)$-approximation for overconstrained least-squares regression, low-rank approximation, approximating all leverage scores, and $\ell_p$-regression. The leading order term in the time complexity of our algorithms is $O( nz(A))$ or $O( nz(A)\log n)$. We optimize the low-order $\poly(d/\eps)$ terms in our running times (or for rank-$k$ approximation, the $n*\poly(k/eps)$ term), and show various tradeoffs. For instance, we also use our methods to design new preconditioners that improve the dependence on $\eps$ in least squares regression to $\log 1/\eps$. Finally, we provide preliminary experimental results which suggest that our algorithms are competitive in practice.
연구 동기 및 목표
- 모든 x ∈ ℝ^d에 대해 Ax의 ℓ2 노름을 높은 확률로 유지하는 빠르고 희소한 임베딩 행렬 S를 설계한다.
- 기존의 Ω(nd log d) 경계에 비해 향상된 O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 과다결정 최소제곱 회귀를 달성한다.
- 최적의 질서-k 해에 대해 (1+ε)-근사해를 얻는 데 O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 n×n 행렬의 저질서 근사를 가능하게 한다.
- 상수 상대 오차로 n×d 행렬의 모든 리지드 스코어를 O(nnz(A) log n) + Õ(r³) 시간 내에 계산한다.
- 모든 상수 p ∈ [1, ∞)에 대해 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 ℓp-회귀를 풀며, (1+ε)-상대 오차를 달성한다.
제안 방법
- 고정된 확률로 부분공간 임베딩 기능을 수행하는, 크기가 poly(rε⁻¹) × n인 희소 행렬 S의 분포를 설계한다.
- S를 사용해 SA를 O(nnz(A)) 시간 내에 계산하며, 모든 x ∈ ℝ^d에 대해 ||SAx||₂ ≈ (1±ε)||Ax||₂를 유지한다.
- 희소 임베딩 행렬을 리지드 스코어 샘플링 및 무작위 허미트 변환과 조합하여 저질서 근사를 가속화한다.
- 두 단계 샘플링 과정을 사용한다: 먼저 무작위 투영 Π₂를 통해 행렬의 노름을 추정하고, 그 추정치에 기반해 행렬을 샘플링한다.
- 이전 연구에서 제안된 잘 조절된 기저 프레임워크를 활용하여, 희소 임베딩에 적응시켜 샘플 복잡도와 실행 시간을 감소시킨다.
- 실행 시간 내의 다항식 계수를 최적화하고, 알고리즘에서 정확도와 효율성 간의 트레이드오프를 탐색한다.
실험 결과
연구 질문
- RQ1입력 스파arsity 시간 O(nnz(A)) 내에, 모든 Ax의 ℓ2 노름을 높은 확률로 유지하는 부분공간 임베딩 행렬 S를 구성할 수 있는가?
- RQ2O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 과다결정 최소제곱 회귀에 대해 (1+ε)-근사해를 달성할 수 있는가?
- RQ3O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 n×n 행렬의 (1+ε)-근사 저질서 분해를 계산할 수 있는가?
- RQ4O(nnz(A) log n) + Õ(r³) 시간 내에 n×d 행렬의 모든 리지드 스코어를 상수 상대 오차로 계산할 수 있는가?
- RQ5모든 상수 p ∈ [1, ∞)에 대해 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 ℓp-회귀를 풀며, (1+ε)-상대 오차를 달성할 수 있는가?
주요 결과
- 제안된 희소 임베딩 행렬은 모든 x ∈ ℝ^d에 대해 ||SAx||₂ ≈ (1±ε)||Ax||₂를 확률 9/10 이상로 유지하면서 SA를 O(nnz(A)) 시간 내에 계산할 수 있다.
- 과다결정 ℓ2-회귀를 위한 알고리즘은 O(nnz(A)) + Õ(d³ε⁻²) 시간 내에 실행되며, 이는 기존의 Ω(nd log d) 경계를 초월한다.
- 저질서 근사에 대해 알고리즘은 O(nnz(A)) + Õ(nk²ε⁻⁴ + k³ε⁻⁵) 시간 내에 실행되며, 최적의 질서-k 해에 대해 (1+ε)-근사해를 달성한다.
- n×d 행렬의 모든 리지드 스코어는 O(nnz(A) log n) + Õ(r³) 시간 내에 상수 상대 오차로 근사할 수 있다.
- 모든 상수 p ∈ [1, ∞)에 대해 ℓp-회귀 알고리즘이 O(nnz(A) log n) + poly(rε⁻¹) 시간 내에 실행되며, (1+ε)-상대 오차를 달성한다.
- 초기 실험 결과에 따르면 알고리즘이 실제 적용에서 잘 작동하며, 샘플링을 줄여도 최적의 질서-k 근사에 가까운 저질서 근사 오차를 기록한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.