QUICK REVIEW

[논문 리뷰] Unbiased estimators for random design regression

Michał Dereziński, Manfred K. Warmuth|arXiv (Cornell University)|2019. 07. 08.

Soil Geostatistics and Mapping인용 수 4

한 줄 요약

이 논문은 결정성 점 프로세스를 통해 비i.i.d. 표본을 구성함으로써 랜덤 디자인 회귀에서 비편향 최소 제곱 추정기를 생성하는 새로운 볼륨 스케일링 표본 추출 방법을 제안한다. O(d log d + d/ϵ)개의 표본을 사용할 경우, 추정기의 기대 손실이 최적의 손실에 1+ϵ 이내가 되며, 대규모 데이터셋에 대해 효율적인 알고리즘을 제공하여 거의 선형 시간 계산과 모델 앙상블에 대한 강력한 보장을 가능하게 한다.

ABSTRACT

In linear regression we wish to estimate the optimum linear least squares predictor for a distribution over $d$-dimensional input points and real-valued responses, based on a small sample. Under standard random design analysis, where the sample is drawn i.i.d. from the input distribution, the least squares solution for that sample can be viewed as the natural estimator of the optimum. Unfortunately, this estimator almost always incurs an undesirable bias coming from the randomness of the input points, which is a significant bottleneck in model averaging. In this paper we show that it is possible to draw a non-i.i.d. sample of input points such that, regardless of the response model, the least squares solution is an unbiased estimator of the optimum. Moreover, this sample can be produced efficiently by augmenting a previously drawn i.i.d. sample with an additional set of $d$ points, drawn jointly according to a certain determinantal point process constructed from the input distribution rescaled by the squared volume spanned by the points. Motivated by this, we develop a theoretical framework for studying volume-rescaled sampling, and in the process prove a number of new matrix expectation identities. We use them to show that for any input distribution and $\epsilon>0$ there is a random design consisting of $O(d\log d+ d/\epsilon)$ points from which an unbiased estimator can be constructed whose expected square loss over the entire distribution is bounded by $1+\epsilon$ times the loss of the optimum. We provide efficient algorithms for generating such unbiased estimators in a number of practical settings and support our claims experimentally.

연구 동기 및 목표

표준 i.i.d. 표본 추출이 편향을 유도하므로, 랜덤 디자인 선형 회귀에서 비편향 추정기를 개발하는 것.
비편향성을 확보하면서도 기대 손실을 최소화하여, 최적의 성능에 비해 작은 곱인 ϵ의 요소 내에서 거의 최적의 성능을 달성하는 것.
특히 대규모 데이터셋에서 데이터 크기의 거의 선형 시간 내에 비편향 추정을 가능하게 하는 효율적인 표본 추출 메커니즘을 설계하는 것.
볼륨 스케일링 표본 추출을 위한 이론적 프레임워크를 수립하고 분석을 뒷받침하는 새로운 행렬 기대값 항등식을 유도하는 것.
비편향성과 낮은 기대 손실을 보장하는 추정기를 구성함으로써 실용적인 모델 앙상블 및 분산 학습을 가능하게 하는 것.

제안 방법

입력 분포에서 비i.i.i.d. 표본을 생성하기 위해 결정성 점 프로세스(DPP)를 활용한 볼륨 스케일링 표본 추출을 사용하여 최소 제곱 추정기의 비편향성을 보장한다.
입력 분포와 점들이 형성하는 제곱 부피를 기반으로 한 DPP에서 함께 추출된 d개의 추가 포인트를 i.i.d. 표본에 추가하여 표본을 구성한다.
볼륨 스케일링 표본 추출 하에서 추정기의 행동을 분석하기 위해 행렬 기대값 항등식을 포함하는 이론적 프레임워크를 적용한다.
표본 크기의 다항식 시간 내에 DPP 표본 추출을 효율적으로 수행할 수 있도록 해주는 새로운 알고리즘 기법인 왜곡 없는 중간 표본 추출을 도입한다.
입력 분포를 항등 행렬 공분산을 갖도록 변환하여 문제를 표준 형식으로 간소화한다.
표본 행렬이 강한 고유값 조건을 만족하는 사건과 실패하는 사건으로 나누어진 두 부분 분석을 수행하며, 둘 다의 기대 손실을 경계한다.

실험 결과

연구 질문

RQ1가우시안 잡음이나 i.i.d. 표본 추출을 가정하지 않고도, 랜덤 디자인 선형 회귀에서 비편향 최소 제곱 추정기를 구성할 수 있는가?
RQ2비편향성을 유지하면서도 기대 손실이 최적의 손실에 1+ϵ 이내가 되기 위해 필요한 최소 표본 크기는 얼마인가?
RQ3대규모 데이터셋에서 데이터 크기의 거의 선형 시간 내에 이러한 비편향 추정기를 구성할 수 있는 효율적인 알고리즘을 설계할 수 있는가?
RQ4결정성 점 프로세스는 어떻게 비i.i.i.d. 표본을 구성하여 선형 회귀에서 비편향성을 보장할 수 있는가?
RQ5볼륨 스케일링 표본 추출을 분석하고 주요 이론적 결과를 증명하기 위해 필요한 새로운 행렬 기대값 항등식은 무엇인가?

주요 결과

볼륨 스케일링 표본에 대한 최소 제곱 해는 반응 모델에 관계없이 최적의 예측기의 비편향 추정기이다.
모든 입력 분포와 ϵ > 0에 대해, 크기가 O(d log d + d/ϵ)인 랜덤 디자인 표본이 존재하여, 추정기의 기대 손실이 최적 손실의 최대 (1+ϵ) 배 이내가 된다.
입력 분포가 크기가 n ≫ d인 대규모 데이터셋에서 균일할 경우, 비편향 추정기의 거의 선형 시간 생성이 가능하다.
이 프레임워크는 DPP에서 표본 추출을 다항식 시간 내에 효율적으로 수행할 수 있도록 해주는 새로운 알고리즘 기법인 왜곡 없는 중간 표본 추출을 도입한다.
분석을 통해 추정기의 기대 제곱 오차가 최적 손실의 상수 배 이내로 경계됨을 증명하였으며, 이 상수는 행렬 농도와 DPP 성질로부터 명시적으로 유도되었다.
이 논문은 새로운 행렬 항등식을 수립하였으며, 이는 임의의 항등 행렬 공분산을 갖는 랜덤 벡터 x에 대해 ∥E[bx]∥² ≤ E[b²]임을 보여주며, 이는 추정기의 편향을 경계하는 데 핵심적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.