QUICK REVIEW

[논문 리뷰] Unbiased estimates for linear regression via volume sampling

Michał Dereziński, Manfred K. Warmuth|arXiv (Cornell University)|2017. 05. 19.

Sparse and Compressive Sensing Techniques참고 문헌 24인용 수 18

한 줄 요약

이 논문은 선형 회귀에서 열 선택을 위한 볼륨 샘플링을 소개하며, 샘플된 열의 부분집합의 의사역행렬이 전체 의사역행렬의 불편 추정량이 되도록 증명한다. 주요 기여는 결과적인 최소 제곱 해의 기대 손실에 대한 정확한 폐쇄형 표현식을 도출한 것으로, 크기-$d$ 볼륨 샘플링을 사용할 경우 기대 손실이 정확히 최적 손실의 $(d+1)$ 배임을 보여주며, 이는 최적이고 독립적 동일분포(i.i.d.) 샘플링 방법보다 훨씬 우수하다.

ABSTRACT

Given a full rank matrix $X$ with more columns than rows, consider the task of estimating the pseudo inverse $X^+$ based on the pseudo inverse of a sampled subset of columns (of size at least the number of rows). We show that this is possible if the subset of columns is chosen proportional to the squared volume spanned by the rows of the chosen submatrix (ie, volume sampling). The resulting estimator is unbiased and surprisingly the covariance of the estimator also has a closed form: It equals a specific factor times $X^{+ op}X^+$. Pseudo inverse plays an important part in solving the linear least squares problem, where we try to predict a label for each column of $X$. We assume labels are expensive and we are only given the labels for the small subset of columns we sample from $X$. Using our methods we show that the weight vector of the solution for the sub problem is an unbiased estimator of the optimal solution for the whole problem based on all column labels. We believe that these new formulas establish a fundamental connection between linear least squares and volume sampling. We use our methods to obtain an algorithm for volume sampling that is faster than state-of-the-art and for obtaining bounds for the total loss of the estimated least-squares solution on all labeled columns.

연구 동기 및 목표

행의 수보다 열의 수가 많은 넓은 행렬 $\mathbf{X}$의 의사역행렬에 대한 비편향 추정량을 생성하는 샘플링 방법을 개발하기 위해.
볼륨 샘플링과 선형 최소 제곱 회귀 사이의 근본적인 연결 고리를 설정하기 위해.
볼륨 샘플링 하에서 추정량의 편향과 공분산에 대한 정확한 기대값 공식을 유도하기 위해.
손실이 유한하게 유지되면서 필요한 레이블이 부여된 열의 수를 최소화함으로써 선형 회귀의 샘플 효율성을 향상시키기 위해.
최신 기술에 비해 시간 복잡도를 향상시킨 더 빠른 볼륨 샘플링 알고리즘을 설계하기 위해.

제안 방법

행렬 $\mathbf{X}$에서 $s \geq d$개의 열을 부분집합 $S$로 선택하며, 이때 선택 확률은 $\det(\mathbf{X}_S \mathbf{X}_S^\top)$의 제곱인 볼륨에 비례하도록 한다.
부분 문제를 위해 하위행렬 $\mathbf{X}_S$의 역행렬을 사용하여 가중치 벡터 $\mathbf{w}^{*}(S) = (\mathbf{X}_S)^+ \mathbf{y}_S$ 를 계산한다.
반복적 샘플링 중에 그램 행렬 $\mathbf{X}_S \mathbf{X}_S^\top$ 의 역행렬을 효율적으로 유지하고 업데이트하기 위해 샤이먼-모리슨 공식을 활용한다.
모든 열로 시작하여 레버리지 점수에 비례하는 확률로 열을 반복적으로 제거하는 역방향 반복 볼륨 샘플링 알고리즘을 설계한다.
정밀도 행렬 $\mathbf{Z} = (\mathbf{X}_S \mathbf{X}_S^\top)^{-1}$ 을 유지하고 랭크-일치 업데이트를 사용하여 효율적인 계산을 가능하게 한다.
비편향성 증명을 위해 기대값 공식 $\mathbb{E}[(\mathbf{X} \mathbf{I}_S)^+] = \mathbf{X}^+$ 를 사용한다.

실험 결과

연구 질문

RQ1볼륨 샘플링이 $s \geq d$개의 열을 선택할 때 의사역행렬 $\mathbf{X}^+$ 에 대한 비편향 추정량을 생성할 수 있는가?
RQ2볼륨 샘플링된 부분집합에 기반한 최소 제곱 해의 기대 손실은 전체 해와 비교해 어떤가?
RQ3샘플 크기 $s = d$ 일 때 볼륨 샘플링이 곱의 손실 한계를 달성할 수 있으며, 이것이 최적인가?
RQ4볼륨 샘플링은 효율적으로 계산될 수 있으며, 시간 복잡도 측면에서 기존 방법보다 뛰어나게 성능을 발휘하는가?
RQ5반복적 샘플링을 통해 손실 요소를 $d+1$ 에서 $1+\epsilon$ 으로 향상시킬 수 있는가?

주요 결과

크기 $s = d$ 인 부분집합 $S$ 에 대해 볼륨 샘플링을 통해 얻은 추정량 $\mathbf{w}^{*}(S)$ 는 최적의 가중치 벡터 $\mathbf{w}^*$ 에 대한 비편향 추정량이며, 즉 $\mathbb{E}[\mathbf{w}^{*}(S)] = \mathbf{w}^*$ 이다.
크기 $s = d$ 일 때, 샘플된 해의 기대 손실은 $\mathbb{E}[L(\mathbf{w}^{*}(S))] = (d+1)L(\mathbf{w}^*)$ 를 만족하며, 이 요소는 최적이다.
추정량의 공분산 $\mathbb{E}[(\mathbf{X} \mathbf{I}_S)^+ (\mathbf{X} \mathbf{I}_S)^{+\top}]$ 는 $\frac{n-d+1}{s-d+1} \mathbf{X}^{+\top} \mathbf{X}^+$ 와 동일한 폐쇄형 표현식을 가진다.
제안된 역방향 반복 볼륨 샘플링 알고리즘은 $O((n-s+d)nd)$ 시간에 실행되며, 최신 기술 대비 $n^2$ 배 향상된 시간 복잡도를 달성한다.
$s > d$ 일 경우, 크기-$d$ 부분집합에 대해 반복 볼륨 샘플링을 수행하면 고려할 만한 확률로 손실 요소를 $d+1$ 에서 $1+\epsilon$ 으로 감소시킬 수 있다.
볼륨 샘플링은 레버리지 점수 샘플링과 같은 i.i.d. 샘플링 방법보다 뛰어나며, 상수 손실 요소를 달성하기 위해 $\Omega(d \log d)$ 개의 샘플이 필요로 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.