QUICK REVIEW

[논문 리뷰] Asymptotics for Sketching in Least Squares Regression

Edgar Dobriban, Sifan Liu|arXiv (Cornell University)|2018. 10. 14.

Face and Expression Recognition인용 수 24

한 줄 요약

이 논문은 최소 제곱 회귀에서 스케칭의 渐近 성능을 분석하여, 설계 행렬에 대한 약한 조건 하에서 스케칭이 추정 및 예측 효율성을 유지함을 보여준다. 스케칭으로 인한 추정, 예측 및 아웃오브샘플 예측 오차의 증가가 유계이면서 표본 크기가 증가함에 따라 점점 줄어듦을 규명한다.

ABSTRACT

We consider a least squares regression problem where the data has been generated from a linear model, and we are interested to learn the unknown regression parameters. We consider "sketch-and-solve" methods that randomly project the data first, and do regression after. Previous works have analyzed the statistical and computational performance of such methods. However, the existing analysis is not fine-grained enough to show the fundamental differences between various methods, such as the Subsampled Randomized Hadamard Transform (SRHT) and Gaussian projections. In this paper, we make progress on this problem, working in an asymptotic framework where the number of datapoints and dimension of features goes to infinity. We find the limits of the accuracy loss (for estimation and test error) incurred by popular sketching methods. We show separation between different methods, so that SRHT is better than Gaussian projections. Our theoretical results are verified on both real and synthetic data. The analysis of SRHT relies on novel methods from random matrix theory that may be of independent interest.

연구 동기 및 목표

대규모 최소 제곱 회귀에 스케칭을 적용했을 때의 매개변수 추정 및 예측 오차의 渐近 행동을 이해하기 위해.
스케칭으로 인한 분산 효율성(VE), 예측 효율성(PE), 아웃오브샘플 예측 효율성(OE)의 증가를 정량화하기 위해.
스케칭이 통계적 효율성을 유지하기 위한 설계 행렬 𝑋에 대한 최소한의 가정을 규명하기 위해.
고차원 설정에서 전체 데이터 회귀에 비해 스케칭된 회귀의 성능에 대한 이론적 보장을 제공하기 위해.

제안 방법

저자는 𝑛 × 𝑝 설계 행렬 𝑋와 반응 벡터 𝑌를 가진 선형 모델 𝑌 = 𝑋𝛽 + 𝜀을 분석한다.
스케칭을 반응 및 설계 행렬 양쪽에 적용하여 (𝑆𝑌, 𝑆𝑋)를 구성한다. 여기서 𝑆는 랜덤 프로젝션 행렬이다.
핵심 성능 지표인 VE, PE, OE는 스케칭으로 인한 추정 및 예측 오차의 상대적 증가로 정의된다.
표본 크기 𝑛 → ∞ 및 고정 또는 증가하는 차원 𝑝 하에서 점점 커지는 조건 하에서 분석을 수행하며, 스케칭 방법에 맞게 설계 행렬 𝑋에 대한 가정(예: 서브가우시안, 비일관성, 잘 조절된 설계)을 설정한다.
랜덤 행렬 이론과 농도 부등식을 사용하여 손실 함수의 기대 증가량에 대한 이론적 경계를 도출한다.
스케칭 방법(예: 가우시안, 하다드, 리커지 스코어 기반) 간의 차이를 그들이 요구하는 𝑋에 대한 가정과 유도되는 효율성 손실에 따라 구분한다.

실험 결과

연구 질문

RQ1스케칭은 최소 제곱 회귀에서 매개변수 추정의 분산 효율성(VE)에 어떻게 영향을 미치는가?
RQ2완전한 데이터 대비 스케칭된 데이터를 사용했을 때 예측 효율성(PE)의 점점 커지는 행동은 어떠한가?
RQ3아웃오브샘플 예측 효율성(OE)는 스케칭으로 인해 어떻게 변화하며, 어떤 조건에서 유지되는가?
RQ4스케칭이 통계적 효율성을 유지하기 위해 설계 행렬 𝑋에 필요한 가정은 무엇인가?
RQ5스케칭으로 인한 추정 및 예측 오차 증가량은 유계이며 점점 점점 사라지는가?

주요 결과

𝑋에 대한 약한 가정 하에서 스케칭으로 인한 분산 효율성(VE) 증가량은 유계이며 표본 크기 𝑛이 증가함에 따라 0으로 수렴한다.
예측 효율성(PE) 및 아웃오브샘플 예측 효율성(OE) 역시 유계 증가량을 경험하며 점점 점점 줄어들어 예측 정확도를 유지한다.
가우시안 또는 서브가우시안 프로젝션과 같은 스케칭 방법의 경우, 스케칭 크기가 𝑋의 유효 차원에 비례할 때 통계적 효율성 손실은 무시할 만큼 작다.
이론적 경계에 따르면, 스케칭으로 인한 추정 오차 기대 증가량은 𝑂(𝑝/𝑟)이며, 여기서 𝑟는 스케칭 크기이다. 이는 𝑟 ≫ 𝑝이면 높은 효율성을 보장함을 의미한다.
𝑋에 대한 비일관성 또는 서브가우시안 가정 하에서, 스케칭된 추정량의 점점 커지는 분포는 전체 데이터 추정량과 가까운 편이다.
𝑝가 𝑛과 함께 증가하더라도, 스케칭 크기 𝑟가 𝑝에 대해 충분히 빠르게 증가하면 결과는 여전히 성립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.