QUICK REVIEW

[논문 리뷰] Outlier Robust Multivariate Polynomial Regression

Vipul Arora, Arnab Bhattacharyya|arXiv (Cornell University)|2024. 01. 01.

Advanced Statistical Methods and Models인용 수 1

한 줄 요약

이 논문은 최대 절반의 데이터가 임의의 이상치인 경우에도 내성적으로 강건한 다변수 다항식 회귀 알고리즘을 제안한다. 체비셰프 측도 하에서는 O(n d^n log d)개의 샘플을 사용하여 ℓ∞-오차를 O(σ)로 달성하고, 균일 분포 하에서는 O(n d^{2n} log d)개의 샘플을 사용한다. 이 방법은 구조화된 다항식 기저 함수와 노드 기반 다항식 분할을 통한 이상치에 강건한 피팅을 활용하며, 정보 이론적 하한을 통한 최적 샘플 복잡도가 증명된다.

ABSTRACT

We study the problem of robust multivariate polynomial regression: let $p\colon\mathbb{R}^n o\mathbb{R}$ be an unknown $n$-variate polynomial of degree at most $d$ in each variable. We are given as input a set of random samples $(\mathbf{x}_i,y_i) \in [-1,1]^n imes \mathbb{R}$ that are noisy versions of $(\mathbf{x}_i,p(\mathbf{x}_i))$. More precisely, each $\mathbf{x}_i$ is sampled independently from some distribution $χ$ on $[-1,1]^n$, and for each $i$ independently, $y_i$ is arbitrary (i.e., an outlier) with probability at most $ρ< 1/2$, and otherwise satisfies $|y_i-p(\mathbf{x}_i)|\leqσ$. The goal is to output a polynomial $\hat{p}$, of degree at most $d$ in each variable, within an $\ell_\infty$-distance of at most $O(σ)$ from $p$. Kane, Karmalkar, and Price [FOCS'17] solved this problem for $n=1$. We generalize their results to the $n$-variate setting, showing an algorithm that achieves a sample complexity of $O_n(d^n\log d)$, where the hidden constant depends on $n$, if $χ$ is the $n$-dimensional Chebyshev distribution. The sample complexity is $O_n(d^{2n}\log d)$, if the samples are drawn from the uniform distribution instead. The approximation error is guaranteed to be at most $O(σ)$, and the run-time depends on $\log(1/σ)$. In the setting where each $\mathbf{x}_i$ and $y_i$ are known up to $N$ bits of precision, the run-time's dependence on $N$ is linear. We also show that our sample complexities are optimal in terms of $d^n$. Furthermore, we show that it is possible to have the run-time be independent of $1/σ$, at the cost of a higher sample complexity.

연구 동기 및 목표

최대 절반의 훈련 샘플이 악성 이상치인 경우에도 정확도를 유지할 수 있는 효율적인 다변수 다항식 회귀 알고리즘을 설계하기.
노이즈가 섞이고 이상치로 오염된 샘플링 하에서 n변수 다항식을 학습하기 위한 샘플 복잡도를 최소화하기.
샘플 수의 비율 ρ < 1/2에 관계없이 일정한 근사 인자와 ℓ∞-오차가 O(σ) 이하가 되도록 보장하기.
엄격한 샘플 복잡도 하한을 증명하여, 어떤 알고리즘도 일정한 확률로 성공하기 위해 최소 (cd)^n log d개의 샘플이 필요하다는 것을 보여주기.
이전의 단변수 강건 회귀 결과(Kane 등, FOCS'17)를 다변수 설정으로 확장하여 최적의 샘플 및 런타임 효율성 달성하기.

제안 방법

체비셰프 유형의 다항식 기저를 유도하여, 제어된 ℓ∞-노름 행동을 갖는 局부 근사 함수를 구성한다.
도메인 [−1,1]^n을 m^n개의 점으로 구성된 격자로 나누어, m = ⌊d^{α/2}⌋로 정의된 노드 bj마다 국소 다항식 pbj를 정의한다.
레퍼런스 7.6을 적용하여 각 국소 다항식 pbj(x)의 크기를 가장 가까운 노드까지의 거리의 O(1/d) 배 이내로 제한함으로써 국소적 지원을 보장한다.
노드 집합 S에 대해 전역 피팅 함수 fS(x) = ∑_{j∈S} pbj(x)를 정의하고, 삼각 부등식과 노드 근접도를 활용해 전역 오차를 제어한다.
이상치가 작은 고립된 영역에 집중될 가능성이 낮다는 사실을 활용하여, 확률적 농도를 통한 오차 한계를 설정함으로써 이상치에 강건한 피팅 전략을 구현한다.
두 후보 다항식 fS와 fS′이 단일 노드의 다항식만 다를 경우, 통계적 구별 불가능성 논증을 통해 샘플 복잡도 하한을 증명한다.

실험 결과

연구 질문

RQ1개별 차수 d인 다항식에 대해 샘플 복잡도가 n에 대해 지수적일 것인가, sub-exponential일 수 있는가?
RQ2체비셰프 및 균일 분포 하에서 다변수 설정에서의 강건 회귀에 대해 최적 샘플 복잡도는 무엇인가?
RQ3악성 이상치의 비율 ρ < 1/2일 때도 ℓ∞-노름에서 O(σ) 오차를 달성할 수 있는가?
RQ4제안된 샘플 복잡도는 타이트한가, 아니면 점점 개선될 수 있는가?
RQ5샘플 복잡도를 증가시키지 않고도 런타임을 1/σ에 대해 독립적으로 만들 수 있는가?

주요 결과

체비셰프 측도 하에서 다변수 다항식 회귀에 대해 샘플 복잡도 O(n d^n log d)로 ℓ∞-오차가 O(σ)임을 입증함.
균일 분포 하에서는 샘플 복잡도가 O(n d^{2n} log d)로 증가하지만, 로그 인자 외에는 최적임이 입증됨.
런타임은 입력 데이터의 비트 정밀도 N에 대해 선형적으로 의존하고, 1/σ에 대해 로그적으로 의존함. 1/σ에 대해 독립적인 런타임은 샘플 복잡도가 증가하는 비용으로 달성 가능함.
샘플 복잡도가 로그 인자 외에는 최적임이 입증됨. 어떤 알고리즘도 최소 (cd)^n log d개의 샘플이 필요함을 보임. 여기서 c = c(C, ρ) > 0.
하한을 통해, (cd)^n log d개 이하의 샘플로는 2/3 초과 확률로 성공할 수 없음을 보여, d^n 기반 샘플 복잡도의 타이트함을 입증함.
제안된 방법은 샘플이 모두 수집된 후에 이상치가 선택된 악성 상황에서도 ℓ∞-오차가 O(σ) 이하로 제한됨을 보장함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.